特征工程入门与实践
上QQ阅读APP看书,第一时间看更新

1.1 激动人心的例子:AI驱动的聊天

我们的AI聊天系统Arty可以像人类员工一样回复客户支持请求。Arty了解我们公司产品,可以随时提供服务。

下面是人与AI客服系统的一段对话。

这种系统令人兴奋,足以撼动市场,因为如此复杂的系统竟然可以十分简洁。让我们仔细分析一下。从表面上看,你有可能觉得,这问题很简单啊!提问很简单,回答也很简单,只是接收一个请求,给出一个回复。“您好,我的手机死机了,应该怎么办?”很简单,重启就好了。当然,表面上看起来一定是这样的。

        from Arty import AI
        AI.respond_to("my phone froze, what should I do?")
        >> "reset it."

问题的难点在于要从AI的角度看问题。AI没有完整的人类经验,它既没读过古希腊史诗《伊利亚特》,也没看过儿童故事书《大红狗克里弗》,没办法消化信息。核心问题就是,AI没有什么阅读的经验。人们给这个AI几十万份(乃至几百万份)之前的人类聊天日志,让其从中发现规律。

上文中AI系统的训练数据节选如下。

数据分为两列,请求表示最终用户输入客服聊天框的内容,回复则表示客服对所收到消息的回复。

在读过数千条包含错别字、脏话和中途掉线的聊天记录后,AI开始认为自己可以胜任客服工作了。于是,人类开始让AI处理新收到的消息。虽然人类没有意识到自己的错误,但是开始注意到AI还没有完全掌握这项本领。AI连最简单的消息都识别不了,返回的消息也没有意义。人类很容易觉得AI只是需要更多的时间和更多的数据,但是这些解决方案只是更大问题的小修小补,而且很多时候根本不管用。

这个例子中的潜在问题很有可能是AI的原始输入数据太差,导致AI认识不到语言中的细微差别。例如,问题可能出在这些地方。

❏ 错别字会无故扩大AI的单词量。“你哈哦”和“你好”是两个无关的词。

❏ AI不能理解同义词。用来打招呼的“你好”和“嗨”字面上看起来毫不相似,人为地增加了问题的难度。