第51章 注意力即所有
老赵那边非常利索地把服务器的账号密码发了过来,顺便还非常贴心地把江大自己开发的服务器登录器也发了一个过来。
苏飞按照Linux系统的操作命令,先登陆上去看了看配置,这不看不知道,一看吓一跳。
老赵分给他的这台服务器插了四张显卡,清一色的3080ti,苏飞查了下型号,这一张就得近万,而作为核心与这四张显卡协同运算的cpu那就更了不得了。
他不由得有些感叹,老赵啊老赵,你年轻的时候是得多大牛,这都退居二线了,手里还富得流油。
苏飞敢打包票,就这四张3080ti的配置,就能抵得上江大不少教授实验室的资源了。
不过这四张卡有两张已经在运作了,估计是其他学生申请了学校的服务器,在跑实验。
既然有了这种配置,苏飞也算是有底气了,他根据自己的模型单元构建起了一个模型结构,然后挑选了人工智能领域中非常典型及复杂的任务,机器翻译。
其实就是语言翻译,目前为止使用的各种翻译软件其核心技术就是基于机器翻译。
这其实还是自然语言处理领域,但又不局限于自然语言处理,因为机器翻译是公认的大数据训练,其训练的复杂度和图领域不相上下,这也就代表着这个实验任务能在很大程度上反应论文模型在人工智能领域的性能。
而苏飞思前想后,决定采取现在国际上公认的两个机器翻译标准任务,将英语翻译成德语以及法语的BLEU任务和WMT任务,这两个翻译任务是目前最有说服力的实验,现在甚至有一个实时榜单专门对这两个任务打榜,在人工智能领域几乎无人不知无人不晓。
所以,苏飞要在最有公信力的任务上下手,做到一击毙命。
在他熬夜修仙两天后,终于辛辛苦苦把自己的模型构建出来了,但应用到这俩任务上去时,他却傻眼了。
“卧槽,这训练一轮就得半小时?”
要知道,人工智能领域的训练轮数都是1000次打底,像机器翻译这种2000次都是常态的。
“这起码得4、50天才能训完啊……”
这简直就离谱,一篇论文耗时最长的居然是任务训练,而最为核心的模型构建只花了几天时间。
而且,在训练中途出了啥岔子,比如说有其他同学一不小心占用了他这张显卡的计算资源,导致程序崩溃,他的模型数据一旦没保存下来,那就得重新训练。
还有一个很重要的问题是,万一训练出来的性能没有想象中的好,苏飞还得调节参数,再训练一次,这时间跨度就未免太长了。
苏飞思考良久,只得又去找VX里的那个中年秃头大叔。
【老赵,能不能再给我台服务器。】
【咋滴了,刚给你的那台服务器出啥岔子了?】
【显卡有些不够用。】
【要几张显卡。】
苏飞想要在一周左右训练完,这么一算……
【8张3080ti。】
那边发来一个小企鹅头掉了的表情包。
【你当我是提款童子?前天不刚让你给我低调点?!】
【那6张也行。】
两三周以内也能接受哇。
【还也行?滚!】
【老赵,你知不知道你现在冰冷的话语正扼杀一个跨时代的造物!】
苏飞发了一张痛心疾首.jpg。
对面直接发了一张滚.jpg。
最终,二人沟通协商数次,老赵敲定了一个方案。
老赵会用管理员权限把所有其他账号冻结一个月,只保留苏飞的账号,这样给苏飞的那台服务器的四张显卡就只能由苏飞使用,也不需要担心其他人一不小心占用了资源导致程序崩溃,因为压根没其他人了。
当然,想要使用这台服务器的其他同学会被安排到其他服务器去,老赵顺便会帮他们把数据也一起转移过去。
这样一来,苏飞用四张卡同时训练,十几天应该就能搞定。
老赵,还是靠谱儿,苏飞决定之后这篇论文发表成功,一定要好好报答报答老赵。
在得到老赵的全力支持后,苏飞也是起飞了,把训练程序往四张显卡上一扔,他就完全撒手不管了。
有句话怎么说来着,要让你的钱比你更努力地工作?
在深度学习领域,要让的显卡比你更努力地工作!
…
…
既然训练程序的问题已经解决了,苏飞便直接开始动笔写论文了。
虽然训练结果还没出来,但苏飞相信这个模型的性能绝对不会差,到时候结果出来了直接把数据填上去,就能直接发表了。
什么?万一性能很差?
这是看不起系统的灵感激发卡吗?
狗系统虽然很狗,经常发布一些奇奇怪怪的任务,但灵感激发卡的功效也是实打实的。
在撰写论文题目的时候,苏飞一字一顿地打上标题。
【注意力即所有(Attention is all you need)】
这种有些狂妄的论文标题很像是一些初出茅庐的小子,不知天高地厚而一时中二取的标题。
苏飞的确是初出茅庐的小子,但他坚信,以注意力机制构建的模型单元担得起这个论文题目。
【目前的主流模型结构都是基于复杂的循环神经网络或者卷积神经网络而构造的编码器-解码器架构。如果在编码器-解码器架构中再加一层注意力机制,那么这个模型的性能就会变得更好。】
【但是,迄今为止从没有人仅用注意力机制构建出一个编码器-解码器架构的模型。本文提出一个新的模型,其舍弃主流的模型架构,单纯采用注意力机制,并引入多头注意力机制与位置向量的概念解决目前注意力机制中的两个难点,其具体的模型构造为……】
【……基于上述的理论,此模型并不局限于自然语言处理领域,其独特的并行运算结构能适用于人工智能领域的任何问题,并且大大提升训练速度,因此,本文将该模型命名为变压器(Transformer)。】
这也算苏飞的一个小趣味,Transformer在英文中不止是变压器,更有变形金刚的意思,而这个模型的确就如同变形金刚一样,非常灵活多变,能适应各种任务。