上QQ阅读APP看书,第一时间看更新
1.1 认识自然语言处理
根据《2017微信数据报告》显示,每天会有380亿条信息从微信上发出,如果按照每条信息都是文字“你吃饭了么”计算,通过微信发送的信息每天的数据量在350GB以上(一个汉字占2字节,1024字节=1KB)。而实际的数据量会更多,因为这些信息会有不少语音、动画表情、图片、小视频等。其实,在实际工作中,我们每天都在处理的电子邮件、各类报告文档等同样也在以惊人的速度充斥着整个网络环境。2018年6月,据科技公司Domo预测,到2020年,世界上每人每天将产生超过140GB的数据,并且随着物联网的迅猛发展,这个数字将会继续扩大。
正是由于这些统计数据的存在,才使得我们为界定NLP提供了良好的基础。简而言之,NLP的目标就是让机器拥有真正理解人类语言并以与人类相同的方式处理它的能力。如今,NLP的应用已经广泛存在,就像我们日常生活中常用到的虚拟助手(VA),常见的有百度语音助手、讯飞语音助手、Google智能助理、微软的个人智能助理小娜(Cortana)、苹果系统的Siri等,这些虚拟助手主要是NLP系统在运行。比如,你告诉语音助手“请告诉我附近好吃的麻辣烫在哪儿?”首先,VA需要将你的声音转换为文本(语音到文本)。接下来,VA必须理解你请求的语义(例如,你正在寻找带有麻辣烫美食且好吃的餐厅)并制定结构化请求(例如,美食=麻辣烫,评级= 3-5,距离<3公里)。然后,VA必须按位置和菜肴两个条件搜索并筛选出餐厅,再按收到的评级对餐厅进行排序。为了计算餐厅的整体评级,良好的NLP系统可以查看每个用户提供的评级和文本描述。最后,用户到达餐厅,VA还可以将各种菜品组合的受欢迎程度进行综合推荐,以此来帮助你做出更好的选择。这个例子表明NLP已成为人类生活中不可或缺的一部分。