第62章 无与伦比的成就
就在江铭修改代码,集合两个实验室之力,开启了并行训练之后的两天后,模型终于是训练完成了。
江铭和高志坐在屏幕前,看着loss曲线终于收敛到极限,心里充斥着满足。
“快,快试试效果。”,高志催促道。
“行,我们先用模型把测试集里的数据全跑一遍。”,江铭轻点几下鼠标,启动了测试程序。
在开始训练之前,江铭就早已把数据集分成了两部分。一部分训练集和一部分测试集。
训练集顾名思义是训练模型的,而测试集相当于是一个全新的模型没见过的数据,用于测试模型效果。
屏幕里,一个个蛋白质的三维结构不断涌现,而对比程序也在飞快计算着IDDT值。
94、96、92、99...
高志看着一溜九十几分的数字,惊得下巴都快掉了。
IDDT是他们常用的分析预测出的结构与真实结构误差的一个指标,代表着预测结构中残基间距离与真实结构残基间距的一致性。
他们平时的预测,能达到40分就已经算是一个非常棒的成果了,这还是因为他们有冷冻电镜加持的缘故。
然而在江铭这里,竟然是清一色接近满分的结果!
要知道,蛋白质分子又不是什么坚硬的晶体,本来这些残基的间距也是不完全固定的。
就算是两个一模一样的蛋白质分子,其之间的IDDT值也就在97-98之间。
这意味着,江铭的模式所输出的结果,几乎是完全正确的!
不单单是准确率的问题,这个预测速度也快得不可思议。
从江铭点击运行开始,计算机几乎就是以20秒一个的速度不断生成一幅幅蛋白质分子的三维图像。
有时候高志都还没看完这一张,计算机就已经跳到下一张去了。
就这样,在高志的震惊中过了整整半个小时,测试程序才最终跑完,平均的IDDT得分竟然达到了95之高。
“卧槽,卧槽!师弟,我们真的发大了!”,高志格外激动,他整个人都跳了起来,在实验室跳了一段踢踏舞。
没有人比他更清楚这种速度与准确率的蛋白质结构预测算法意味着什么。
“你知道么,师弟,从此以后,蛋白质结构预测再也不是一个问题了,整个生命科学界都要迎来巨大的变革。”
“哈哈哈哈哈,别说什么科研成果目标翻倍了,有了这个成果,就是翻三倍四倍,都能轻松完成!”
...
此时的吕慧莹,正在办公室里焦虑地踱着步。
刚刚出版的Nature子刊,Nature Biotechnology中,吕慧莹又看到了两篇有关蛋白质结构预测的文章,都是计算机辅助预测的方法,甚至有一篇还登上了封面。
鹰国的技术团队,竟然已经把计算机辅助预测的IDDT值提高到了38!
这几乎与人工预测没什么差别了,她们实验室积累了这么多年,也就能把IDDT做到40左右。
吕慧莹作为从业多年的科研工作者,第一有了一种落后于时代的感觉,而这种感觉令她无比羞耻。
在科研竞争如此激烈的蓝星里,一步落后,就是步步落后。
科技的爆炸性发展的,这也意味着有的时候落后一方追赶的速度,甚至赶不上科学前沿不断向前推进的速度!
忽然,一阵急促的手机铃声打断了她的思绪,她点开手机屏幕,竟然是她的学生高志打来的。
“吕老师,您快来江铭他们实验室看看吧,江铭做的模型,平均IDDT值达到了95!”
“什么?我这就过去。”,吕慧莹惊声道。
经验和理智告诉她,这个结果根本不可能,但是心中又没来由得有了一丝期待。
万一,万一是真的呢?
...
信息计算与智能系统实验室里,吕慧莹仔细端详着两张蛋白质分子的三维图像。
她一点点拖动着鼠标,两个蛋白质分子在屏幕里360度自由旋转,从各个角度看都近乎一模一样。
这其中,一个是真实测得的蛋白质结构空间位置,另一个是算法预测出来的。
“为什么你的算法预测出的三维图像,还会在蛋白质分子的不同位置有不同的染色呢?”,吕慧莹指着屏幕试探着问。
“这个颜色代表了置信度,越偏向红色,意味着预测的置信度越高,也是蛋白质结构里更稳固的部分。而对于一些较为游离的基团,则本身的三维位置不够固定,置信度就会更低,偏向蓝色一些。”,江铭坦然答道。
吕慧莹看得非常之慢,一个个蛋白质检查过去,几乎用了一个小时才看完她之前随机挑选的十个。
“我还想再测一个结构,可以吗?”,吕慧莹问道。
“当然可以,吕老师。”
“好,那我把碱基序列读给你,你输入一下看看。”
吕慧莹立刻掏出手机,打开了刚刚Nature Biotechnology中鹰国生命科学团队发表的论文,里面正记着他们所新发现的一个蛋白质基团。
“AGCATGCGATTA...”
吕慧莹一边读,江铭一边录入电脑。
这是一条包含了一百多个碱基对的基团,鹰国的团队也把基团的多角度真实结构图附在了附录里。
等待的过程令人焦躁,很快,模型预测的结构便显示在了屏幕上。
吕慧莹迫不及待地扑在电脑前,仔细查看。
这个结构...这个预测出来的结构竟是和论文上附录里的真实结构毫无二致!
她简直不敢相信自己的眼睛!
这就成功了?计算机真能做到这么高的准确率?
如此横亘生命科学界二十多年来的难题,竟然真的被江铭就这样解决了。
吕慧莹只感觉这一切轻飘飘的,如同在做梦一般。
花了整整五分钟,才重新平复了自己的情绪,她这才反应过来这个成果究竟是多么巨大的一个成就。
有了这样的成果,江铭几乎立刻就能成为那些生物研究所、医院、药品企业的座上宾。
吕慧莹瞬间又感到有些担忧了。
这个预测算法和模型,几乎从头到尾都是江铭一个人做的,她们实验室只是提供了数据和部分算力罢了。
江铭当然有着处置成果的权力。
手握这个算法,那将会有多么大的经济利益和权力啊,江铭真的还愿意把成果发表吗?