1.4 情感分析面临的困难
尽管针对文本情感分析的研究已经取得了一定的成果,但仍然面临来自多方面的困难,主要包括:数据稀缺性、类别不平衡、领域依赖性、语言不平衡。
(1)数据稀缺性
无论是训练语料还是词典资源,都处于比较匮乏的阶段;文本情感分析主要包括基于情感词典和规则的无监督学习方法和基于机器学习的有监督学习方法。然而,在面向特定领域或场景时,无论是无监督学习还是有监督学习,数据都很稀缺。在无监督学习中,大规模高质量的情感词典是非常宝贵的,目前尚无公开的针对多个不同领域的情感词典可用。此外,即使有开源的情感词典,由于网络新词层出不穷,还需要不断对情感词典进行扩充和更新;在有监督学习中,需要借助有情感标注的语料库来提取特征并训练情感分类器。然而情感标注语料本身也是稀缺资源,由于不同领域的情绪表达有不同特点,通用的情感训练语料无法满足不同领域研究的需求。
(2)类别不平衡
收集到的样本中情绪各类别的数量明显存在差异;情感分析的工作已开展多年,目前大多数工作都假设正负样本是均衡的。情绪分析是在情感分析的基础上进行更细粒度的分类。然而,不同情绪的数据集规模往往不均衡,在实际收集的微博语料中,一些情绪类别的语料数量明显多于另一些类别,比如表达喜欢的语料明显多于表达害怕的。所以,适用于均衡分类的方法在面对不均衡数据时效果往往并不理想。样本数据的不平衡分布会使机器学习方法在进行分类时严重偏向于样本多的类别,进而影响分类的性能。
(3)领域依赖性
情感词在不同领域的表达存在差异;同一个词在不同的领域背景下表达着不同的情感,比如“不可预测”在电影评论领域是褒义的,在汽车评论领域是贬义的。因此,在进行情感分析的时候,应该充分考虑情绪词的领域依赖性。跨领域情绪分析是文本情绪分析的一个重要研究课题,有很多问题需要解决。比如,在一个领域的意见表达,在另一个领域可能反转。此外,还应该考虑不同领域情绪词汇的差异。
(4)语言不平衡
当前大多数工作都基于英文语料,语言迁移存在困难。现有情绪分析工作大多基于英文,虽然近些年对中文的情绪分析也有了一定的研究成果,但是基于情感语义知识库的工作都需依赖特定语种的外部资源,基于英文的情感分析研究在迁移到其他语言时往往性能下降明显。此外,由于非英语的情感分析训练集和测试集也相对匮乏,极大限制了非英语语种的情绪分析研究。