第一部分
第1章 概述
1.1 文本情感分析相关概念
情感分析(Sentiment Analysis)[1]又称为倾向性分析或观点挖掘(Opinion Mining),是一种重要的信息分析处理技术,其研究目标是自动挖掘和分析文本中的立场、观点、看法、情绪和喜恶等主观信息。随着微博、论坛和社交网络等新型互联网应用逐渐融入社会生活的各个角落,网民经常在互联网上表达自己对于日常事件、产品等方面的观点和看法,使互联网记录了大量由用户生成且带有情感倾向的文本数据。这些数据是情感分析的重要语料来源[2],对其充分利用有利于掌握大众观点,促进各行各业更好地发展,因而情感分析受到工业界和研究领域的普遍关注。
情感分析包含了情感基本单元抽取、情感分类、情绪分析、情感摘要和情感检索等多项研究任务。
情感基本单元抽取是情感分析最底层的研究任务,旨在从情感文本中抽取有意义的信息单元,然后将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感基本单元可以为情感分析上层的研究和应用提供支撑。情感基本单元抽取主要包括观点持有者抽取、评价对象(target)或属性词(aspect)抽取、情感词抽取以及情感词的极性判定等。观点持有者抽取是指抽取观点句中观点或评论的持有者,目前此项抽取任务主要面向的是新闻评论文本。评价对象抽取是指抽取评论文本中情感表达所面向的对象。属性词抽取与评价对象抽取略有不同,属性词可能是显式的也可能是隐式的,属性词对应的不是一个词或一组词,比如在酒店评论中,“服务”是一个属性,跟“服务”相关的属性词有“服务员”“态度”“前台”“服务生”等。情感词(评价词/极性词)指在情感句中带有情感倾向性的词语,是表达情感倾向的关键部分。情感词的判定是给情感词打一个正负标签,比如,“好”对应+1,是个褒义词;“差”对应-1,是个贬义词。有时为了进一步区分情感强烈程度,还会采用带权重的极性打分。
情感分类是情感分析中被最广泛研究的任务,很多论文中把情感分类等同于情感分析[3-6]。情感分类[7]是指对情感文本所体现出的主观看法进行类别判定。情感分类通常分为两类(正面与反面)或三类(正面、反面与中立),其中正面类别(positive)是指文本体现出支持的、积极的、喜欢的态度和立场;负面类别(negative)是指文本体现出反对的、消极的、厌恶的态度和立场;中立类别(neutral)是指没有偏向的态度和立场。情感分类和普通文本分类[8]有相似之处,但比普通文本分类更为复杂。在基于主题(topic)的文本分类中,因为不同主题的文本所运用的词语往往也不同,这种词语的领域相关性使得不同主题的文本可以很好地进行区分。然而,情感分类的正确率比基于主题的文本分类低很多,这主要是由于文本中复杂的情感表达和大量的情感歧义造成的。比如,在一篇文章中,客观句子与主观句子可能相互交错,或者一个主观句子同时具有两种以上情感。因此,情感分类是一项比主题分类更复杂的任务。
按照不同的粒度,情感分类又可以分为篇章级情感分类、句子级情感分类和属性级情感分类。篇章级情感分类是指对整篇文章/文档进行整体的情感极性判别,常用于酒店、餐馆、图书和电影等领域评论的整体评分。句子级情感分类是指对一个句子进行情感极性判定,一篇文章中可能有多个句子,不同句子的情感极性可能不同。在实际应用中,因为微博的内容通常较短,所以基于微博情感分类经常被视为句子级情感分类任务。属性级情感分类是指针对文本中的特定属性进行情感极性判别,常用于不同商品的特定参数的对比评测,比如“数码相机”就拥有“镜头”“外观”“像素”“价格”等多个属性。不同的消费者对商品不同属性有着不同的偏好,因此属性级情感分类非常适用于电商的评论挖掘。
情绪分析(Emotion Analysis)是在现有粗粒度的情感二分类或三分类基础上,从心理学角度出发,多维度地描述人的情绪态度。比如“卑劣”是个负面的词语,而它更精确的注释是憎恨和厌恶。由于情绪分析对于快速掌握大众情绪的走向、预测热点事件甚至民众的需求都有重要的作用,近几年引起了许多研究者的关注[9-11]。我国很早就开始对情绪分析开展研究。据《礼记》记载,人的情绪有“七情”的分法,即为喜、怒、哀、惧、爱、恶、欲。法国的哲学家笛卡儿(Descartes)在其著作《论情绪》中认为,人的原始情绪分为惊奇、爱悦、憎恶、欲望、欢乐和悲哀,其他的情绪都是这六种原始情绪的分支或者组合。在本书中,若无特殊说明,情感分类是指正、负二分类,而情绪分析则是多个类别的分类。情感和情绪研究一直是心理学的研究重点,心理学关于情感和情绪的研究成果,对于挖掘和分析互联网用户生成数据具有重要的参考价值。越来越多的信息科学学者意识到这一点,不仅在传统的情感分析工具中加入一些心理学元素,而且还根据心理学的情绪结构理论构建了多个全新的研究工具,为网络文本的情感分析注入了心理学思想。利用这些研究工具对在线文本进行情感分析,已取得诸多有价值的研究成果,也拓宽了社会科学研究的边界。
网络数据的爆炸式增长,激发了用户从互联网海量信息中搜索有效信息的需求。为满足互联网用户日益增长的搜索需求,2006年国际文本检索会议(Text Retrieval Evaluation Conference, TREC)首次引入博客检索任务。在搜索过程中同时考虑搜索关键字和用户的情感诉求,可以使搜索变得更加便捷、准确和智能。情感检索技术[12]是解决该问题的重要方法之一,其任务是从海量文本信息中查询文本所蕴含的观点,并根据主题相关度和观点倾向性对结果进行排序。情感检索返回的结果需要同时满足主题相关性和情感倾向性。
为了有效利用互联网上的海量评论文本,就需要用技术和工具对这些评论文本进行自动地处理和分析。这既可以减少人们的工作量,又可以将有用的信息准确快速地反馈给用户,故自动情感摘要技术[13]应运而生。自动情感摘要技术是在自动摘要技术的基础上延伸出来的。传统的自动摘要技术是指提取文本中能够表达主题信息的文本形成摘要。但是,对于评论文本来说,它包含了用户的情感和观点,简单的自动摘要技术缺少情感信息的采集,不能满足用户的需要。与传统的主题摘要不同,情感摘要侧重于提取具有明显情感倾向性的主观评论,比如对特定商品或服务的评论信息进行归纳和汇总。针对在线用户评论,情感摘要主要有两种呈现方式:一种是基于主题的情感摘要,另一种是基于情感倾向性的情感摘要。