上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

第41章试错探索与利用

“各位信息学和控制学界同僚，各位评委，大家好...”，江铭上台后，气定神闲地开始了开场白。

“今天我演讲的标题是：试错、探索与利用——策略梯度算法在自适应巡航系统上的实践。”

江铭一开口便极为不凡。

不同于其他学员直接把标题定为《基于XXX的自适应巡航》，江铭的标题简直像是在做一场学术报告。

一时间观众们都被他的开场白吸引了注意。

“卧槽，牛啊！江铭的气场也太强了，力压其他学员。”

“我真的看的是综艺吗，不是误入了什么学术会议现场？”

“试错，探索与利用？他想要表达什么？好期待啊...”

然而，这种弹幕仅仅持续了30秒。

就在江铭打开PPT之后，观众们全都绷不住了。

“哈哈哈哈，这是什么，刚刚出土的新鲜PPT吗？”

“有一说一，我太奶来了做的PPT都比这个好。”

“你们看他的队友林欣然的表情，都快崩溃了，江铭这才是真的猪队友啊！”

“这前后反差也太大了吧，十秒钟之前还是逼格满满，打开PPT后，就这？”

甚至还有观众发出来网上那张画马的梗图。

一只前半部分是精雕细琢的素描，后半部分是潦草简笔画的马。

还贴心在梗图上P上了文字：江铭打开PPT前-江铭打开PPT后。

演播室里，莉雪和颜宇菲也忍俊不禁。

“江铭这孩子，还真是...出乎意料呢。”，颜宇菲笑着道。

“不过，他的题目的确标新立意，看看他后面准备怎么展开吧。”，莉雪附和着道，她心里还是希望江铭有不一样的精彩表现的。

庞武倒是更加地不爽了，他之前说江铭不够专注，被弹幕群嘲。

现在到了江铭上台，他给出这么一份潦草的PPT，就这？

庞武坐在那里不说话，静等江铭的表演。

他暗暗告诉自己，只要最后江铭所讲的内容有问题，他必定要狠狠点评一番。

...

江铭讲完开场白后，现场一片沉默。

众学员都瞪大了眼睛，一副迷惑的表情。

其中就属华清组谢恒的表情最为震惊，或者说是惊讶中带着茫然与不解。

只有彭城一改往日的严肃，换了个放松的坐姿，靠在椅背上饶有兴趣地盯着这个标题。

也许对他而言，PPT制作什么的都是小事，本就不会在意，只有PPT背后的思维是值得关注的。

江铭将众人表情尽收眼底，表情仍旧平静如水，轻点鼠标翻到第二页。

“在介绍我们组的方案之前，我想先提一个问题：我们所设计的控制策略究竟是什么？”

众学员皱眉，控制策略就是控制策略啊，这还能怎么去挖掘？

江铭这个问题就好像是问大家数字1究竟是什么一样。

江铭看众人仍不理解，便继续引导道：“就用我们现在自适应巡航的问题来举例。”

“比如说有一种控制策略是，离前车近，就减速；反之如果离前车远，就加速。”

“或者把这个控制策略细化一下，距离前车小于1米，就把油门降到原来的80%，距离大于1米就把油门提高到原来的120%。”

“这就是一个非常简单的控制策略，虽然没人会用它。”

“但是这个例子很直观地反应了，策略其实是从当前环境状态到动作的一个函数。”

“对于任何情况，无论是车距、车速、上坡下坡，刮风下雨，这个函数都可以根据环境状态计算得到一个动作值。”

“因此，一个最优的控制策略，其实是一个最优的函数。这个函数无论输入什么样的环境状态值x，都能得到一个当下最优的动作值y！”

江铭的一席话振聋发聩，顿时在场学员们都有所明悟，就连彭导都露出了赞赏的神色。

“但是你要怎么得到这个函数呢，难道你能构建一个极其复杂的偏微分方程，甚至还能求出其解函数吗？”，谢恒忍不住反驳道。

这简直是异想天开，包含控制策略的偏微分方程早就复杂到超出人类能表达的极限了，根本不是人能构建的。

而且，先不说这个函数能不能构造的问题，甚至不说这个函数能不能求解的事，如果求解出的这个最优策略函数本就没有封闭形式的表达式呢？

没有封闭形式的表达式，意味着这个函数根本没法写出来，就更别提输入环境值x得到动作值y了。

谢恒只当江铭是彻底昏了头，知道自己的方案比不过，便琢磨一些高大上的没有实际意义的概念，再美名其曰创新，企图交差。

他心里清楚，这种不能落地的方案根本入不了彭城的眼。

他为什么这么执着于在节目离拿下第一，就是因为他知道这一次的代教导师彭城，在整个业界的地位。

江铭也许不懂，但当他来到节目组看到代教导师是彭城时，简直惊讶得以为在做梦！

只要能在这次节目里获得他的好感，那以后无论是去工业界还是混学术界，都是横着走。

“这根本就是不可能的。”，谢恒自语道。

“其实不需要我们人工构造微分方程，只需要用神经网络训练即可。”，江铭微笑回答，指了指小标题道：“这也是我即将要讲的，试错、探索与利用。”

“自然界中，几乎所有的生物，都有着各种策略。捕猎需要策略，筑巢需要策略。我们人类平日的生活，做饭，出行路线，这些都是策略。”

“这难道是因为在我们大脑里有一个微分方程吗？不，我们是通过不断试错学习得来的。”

“做饭咸了，下一次就少加盐；出行这一条路慢了，下回就换条路走。这种通过试错迭代学习的模式几乎贯穿了我们的一生。”

“那么如果我们能设计一个智能体，神经网络就是它的大脑，只需要不断探索不同的策略，在模拟的世界中试错。”

“然后，让神经网络利用这些试错数据，好的部分保留，不好的部分丢弃，不断迭代。”

“最终，神经网络就能无限逼近我们前面所提到的最优策略函数。”

...

本周热推：

赛博朋克深红之渊神龙科技帝国赛特斯N 黑侠英雄崛起我在财阀当太子爷

第41章 试错 探索与利用

第41章试错探索与利用