从信息学霸到神级科学家
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第20章 天才般的构想(二合一章节)

自从尝到上课回答问题加经验的甜头之后,江铭上课更加积极了,把徐建华推荐的几门课上了个遍。

不出一周,江铭就在三个学科上都增长了可观的经验值。

—————————————

姓名:江铭

信息学(主学科):Lv0 (520/1000)

数学:Lv0 (450/1000)

微电子工程学: Lv0 (200/1000)

积分:0

—————————————

看着自己稳定增长的经验值,江铭不禁露出欣慰的笑容,预计再过两到三个任务就能把信息学和数学提升到Lv1了。

至于微电子工程学...

唉,江铭只觉得自己在微电子工程领域的进展惨不忍睹。

只能考虑后面能不能再多上几门课,或者多去朱宇他们实验室逛逛吧。

系统给的任务总是被动触发,江铭也一直没能遇到加微电子工程学经验的任务。

...

周日,信息计算与智能系统实验室外。

朱宇引着一位中年男子与实验室众人见面。

“爸,这就是我之前和你讲过的江铭,这位是徐建华教授,这边是林欣然师姐。“,朱宇耐心地给朱朝阳介绍着。

江铭定睛看去,只见这个男人留着络腮胡子,头发斑白但非常整洁清爽,极具一种成熟男人的魅力。

徐建华则在一旁尴尬陪笑。

昨天江铭通知他朱朝阳要莅临实验室洽谈项目的时候他都惊了,自己这个学生竟然不声不响地给自己拉了这么大一个校企合作!

虽然当时就气愤地批评了江铭这种越俎代庖的行为,但身体还是很诚实地加了一整晚的班,把实验室的工作都整理了一遍。

没办法,万一今天这尊佛问起来,自己没准备好可怎么办?

可不是哪个实验室都有机会接触这个金陵市本地的著名企业家的,况且江铭还和他说有大的项目合作要谈。

这个江铭,就不能提前和他说一下要谈什么吗,自己这个导师还要不要面子的?

“原来你就是徐教授,幸会幸会。”,朱朝阳抬手与徐建华握手,边表明来意:“我这次来,是听说你们实验室可以解决长文本高精度机器翻译的问题,所以就来讨教一下。”

朱朝阳取出名片递给众人,上面在朱朝阳三个大字下面竟赫然写着物理学中级研究员的title!

等等,机器翻译?!徐建华震惊,身为信息学领域资深研究者的他当然知道朱朝阳所说的长文本高精度的机器翻译究竟得有多难。

到底是谁告诉这尊佛他们实验室能解决这个问题的?

徐建华更紧张了,他冷汗直流,自己这边可完全没准备与机器翻译有关的内容。

况且那朱朝阳竟然是中级研究员,和自己评级!

虽然不是信息学领域而是物理学领域,但是研究这件事讲究一个触类旁通,朱朝阳绝不是可以随便糊弄的,甚至对于机器翻译问题肯定是有所研究的。

徐建华转头看向江铭,如果眼睛能说话此时他已经喊出一连串的救救救了。

还好江铭立刻上前解了围:“朱总您好,我已经做好了具体解决方案的PPT,这就给您讲解一下我们实验室机器翻译的具体方案。”

他引着一行人走到实验室内的小型会议室,打开放映机,幻灯片上正展示着标题《基于LSTM的长文本高精度机器翻译》。

林欣然在旁边帮忙翻页,江铭看向众人,自信地开讲。

他昨天就已经用最后的50积分和系统换取了机器翻译的完整方案,用了一晚上把全部内容梳理得滚瓜烂熟,因此脸上一直挂着自然平和的微笑,与徐建华形成鲜明对比。

“首先,请允许我带大家回顾一下之前的统计翻译问题在哪里,再介绍我们的新方法是如何针对这些问题进行改进的。”

“过去的许多方法是直接通过数据构建从A语言向B语言的映射,在输入的时候将文本表示为一个长向量,向量每一维的元素值表示该词在文本中的存在性。”

朱朝阳在下面频频点头,江铭所讲的内容与他调研的结果一致,他只是觉得这样的方式的确不好,但是又想不到解决的办法。

江铭看众人都清楚自己所讲的内容,便示意林欣然翻到下一页:“然而这样的方式存在三个问题:首先是稀疏性问题,把整个文本表示为长向量那对应中文的话这个向量将会有3500维到7000维左右,其中几乎全部的维度都是零。”

“第二个问题是分布外延的问题,我们的世界是不断产生新单词的,本身每种语言也有大量生僻字,长向量的方式无法扩展也难以训练。”

“第三是我们目前的模型不足以建模长文本的复杂语义表征,使得即使用远超出现存数据量的数据训练,也难以在长文本上做到有效翻译。”

徐建华等人陷入了思考,江铭的总结非常精辟,这几个问题极难解决,几乎封死了原来统计翻译的道路。

这也是为什么特技研究员高泽把机器翻译列为了未来十年的重大课题。

难道江铭就有什么办法解决吗?几人不解。

“这三个问题实际上是源自一个问题,表示。”,江铭继续道。

“表示?”,其他众人对这个突然蹦出的词摸不着头脑,三个这么复杂的问题怎么就和表示有关了?

“我们现在把A语言的一个长句子表示成一个向量,再映射到B语言,就像查字典一样,这虽然简单直观,但是其实没有理解语言翻译真正的含义。”

“我请各位想想,比如高兴、快乐、走路、跑步这几个词,它们在上述的表示方法里是截然不同的词,但是在语义上真的是这样吗,或者翻译成别的语言的时候会不会翻译成同一个意思?”

“我知道我知道!”林欣然举手,“高兴和快乐在语义上很接近,走路和跑步虽然速度不同,但都是相同类型的词,应当也比较接近。”

“你说的很对”,江铭欣慰地看了林欣然两眼,继续道:“一个词有它的词性和词义,不同词性与词义的词通过不同的顺序组合,就形成了语义。”

“因此第一步...”,江铭顿了顿,示意林欣然翻页。

不过林欣然还沉浸在被夸奖的喜悦中迟迟不动,江铭只好自己走过去戳了一下触控屏幕,屏幕上展示出一张由不同词语构成的复杂云图。

“第一步就是构建词语的稠密向量表示!”,江铭走到屏幕前,指向其中某个区域,几人探着头眯起眼睛才看出来这个位置正是写着跑、跳等与行走有关的词语。

“比如现在出现一个新词是彳亍,虽然很少有包含这个词的句子以及整句话的翻译,但只要它在表示上处于这个区域,仍然能做到丝滑翻译。这就解决了刚刚第一第二两个问题。”

台下的几人脸色从疑惑到恍然再到震惊,徐建华甚至接连发出卧槽的声音,只有朱宇听不太懂,但也不明觉厉。

他环顾四周欣赏了一下众人的表情,自己看中的大佬果然没给他丢人,也不枉费他努力在父亲那边争取了。

“通过词向量的方式,的确可以解决前两个问题。但你如何表示词与词之间的顺序关系呢,从一个个词组合成为语义可是复杂的序列建模问题!”,朱朝阳一针见血地道。

就是因为序列建模几乎是绕不过去的难关,之前的机器翻译方法才一直没有选择统计翻译这条路线。

毕竟即使是最新的RNN网络,也只能记录一些简单的顺序关系,因此序列建模这条路几乎无解。

朱朝阳不禁疑惑,难道江铭在这里也有一些自己的想法,通过什么自己没想到方式避免了进行序列建模吗?

面对朱朝阳的问题,江铭面不改色,仿佛这个难倒学术界几十年的问题在他这里丝毫不存在一样。

他把PPT翻到下一页,露出了一张精心绘制的结构图,一看便是出自林欣然的手笔,自信地道:“对于这种序列建模的问题,我们开发出了全新的LSTM网络,基于遗忘门、更新门和输出门,很好地捕捉词向量之间的长距离依赖关系,经由多层迭代,将一组词向量映射到语义空间。”

“上述的结构从词映射到词向量,再映射到语义,我称之为编码器。后续的结构从语义映射到另一种语言空间的词向量,再到词组合成句,我称之为解码器。”江铭一口气解释完自己的全部设计,这才耐心地站在一旁,等着众人理解。

徐建华是理解的最快的,本身就是信息学的资深教授,更何况他一周半前就在创才班考试的卷子上看到了LSTM的设计,因此江铭一讲完他很快就理解了这么做的好处。

“好像真行得通啊!”,他小声感叹,既兴奋又不免有些紧张。

他是真的想要达成这次合作,想想就知道,搜航集团在短短几年内不知道收集了多少不同语言的新闻稿件,这可是天然的最大最全的翻译数据集。

与搜航合作绝对能最大限度发挥出江铭这个研究成果的惊人能力。

然而,朱朝阳真的会同意合作吗?

说到底LSTM这个技术从来没有在其他地方试验过,结果一上来就要用在这么困难的问题上。

徐建华知道像是朱朝阳这样的企业家,从来都是无利不起早,想要在一个还未证实的技术上花大价钱大投入,几乎是不可能的。

朱朝阳皱着眉头沉思良久,一直没有说话。

他的确没看懂后面这部分。

毕竟他不是信息学领域的,即使基础再好,也不可能一眼就从结构看到效果。

终于,朱朝阳冷静开口:“可以,我投了。”

“你需要什么数据、人力我都可以给你,我再出资80万资助你们完成这个项目,不过这个翻译软件做出来成果要归搜航所有。”

卧槽,80万,徐建华激动的热泪盈眶。

这可是80万啊,他一个中级研究员三年都赚不来的钱,江铭只是出了个点子就能赚到,而且立刻到账!

江铭却不说话,徐建华都想替他答应了。

还在犹豫什么,80万买不了吃亏,买不了上当,机器翻译软件直接包邮到家了啊!

“爸,不能这样算吧。”,朱宇这时候站出来开口。

徐建华大惊,没想到在这关键时刻还会起波澜。

而且他此刻还没搞清楚,这个朱宇到底是哪边的?

“这种高性能的长文本翻译,如果真能做出来,几乎可以算是改变世界的产品了。”,朱宇沉声开口。

“一旦发布,必然会引发一场信息学研究的热潮。市面上一定会涌现出其他企业专注于翻译这个领域。”

“搜航拿着这个技术能保证未来在这个领域不会被超越吗?可不要小看了蓝星其他研究员们的追赶能力。”

“如果买断,那就是双输!江铭拿不到这项技术的后续收益,搜航也无法在这个垂直领域保持领先。”,朱宇的视线扫过众人,最后聚焦到江铭身上:“江铭你也需要论文成果提升职称啊,被买断了就没法发表了。”

之前江铭在宿舍打电话的时候朱宇就在一旁,因此也明白江铭到底有多需要论文。

朱宇的话让众人恍然大悟。

朱朝阳却没有流露出太多表情,他看着朱宇淡淡地问道:“那你觉得应该如何呢?”

“我建议以您个人作为天使投资人,以股权投资的方式资助江铭成立公司。至于股权比例,我认为您应该占35%,江铭占65%。”

此话一出,众人震惊。

这难道就是传说中的坑爹?徐建华心里默默吐槽。

原本80万买断被朱宇谈到了100万却只占35%的股份,相当于把江铭的技术直接从80万抬价到接近200万!

朱朝阳真能同意这样的建议?

众人都看向朱朝阳,这个男人露出几分无奈的神色,仿佛对自己儿子胳膊肘往外拐的操作无语了。

半晌,他还是点点头,认同了朱宇的话:“按照天使投资的方式也可以,但我有两个要求。”

“第一是我需要签订最优惠待遇条款,保证如果有未来的融资,在未来融资中我享有的待遇不会低于任何其他融资者,并且后续融资的估值水平不能低于本轮融资。”

“可以。”江铭不假思索便同意了,这是一般天使投资人都会提出的条件,保证自己不会在后续融资中被踢出局。

“第二是我要签一个股权转让协议,把这些股份全权交给朱宇保管,未来无论是与搜航在人力还是数据上的合作,都由朱宇来负责沟通。”

“没问题,我原本也计划让朱宇来管理这一块。”,江铭答应得很干脆,他早就和朱宇约定了要一起实现机器翻译。

相比于技术买断而言,他当然更希望能拥有一家可以持续生钱的公司,这对自己未来的研究也大有裨益。

虽说现阶段自己资金充裕,但谁知道未来从系统兑换的技术有多难实现呢?

就算系统现在给他可控核聚变的技术,他难道就能做出来吗?

他这一百万可能连个小零件都做不来。

至于说是否会因为经营不善倒闭,江铭倒是从没考虑过。

自己身怀系统,只要时间足够,就能有源源不断的技术创新和杀手级应用,还有搜航集团作为靠山提供宣传甚至人力的支持,想把公司开倒闭都是件难事。

...

具体的投资方案一个下午便签订好了,江铭在方案中给徐建华和林欣然各分了5%的股份。

因此江铭占股55%,主要负责机器翻译研究计划的推进。

朱宇占股35%,负责公司的数据来源、媒体宣传和人力。

徐建华负责与学术界对接,指导论文写作与投递。

在林欣然的强烈要求下,由她担任公司形象大使,并且负责后勤的诸多事项。

校门外。

“爸,我就不继续送你了。”,朱宇停住脚步,对朱朝阳道。

那个男人没有停步,走向校门口停着的黑色迈巴赫。

“其实还能要到更多股权,我来之前估算你即使要45%,江铭也很大概率会同意的。”

“你这个股权比例,小心融资后被踢出局。”,朱朝阳没有回头,还是那副平静的语气,仿佛刚刚支出的一百万对他来说只是小事情。

只有股东在公司中占据超过三分之一的股权,才能拥有一票否决权。

朱宇只占35%,如果未来公司继续融资,股权稀释之后,是有可能被江铭联合其他股东开除的。

“我知道,爸,不过我相信我自己,更相信他。”,朱宇坚定地道,“这是我们共同的事业,我会努力不下牌桌的。”

“随你。”,男人坐上汽车副驾,随着一声轰鸣声浪,扬长而去。

“我会证明自己的。”朱宇望着消失在道路尽头的汽车尾影,捏紧了拳头。