大规模场景图像的情感语义分析若干关键技术研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 国内外研究现状

自20世纪90年代CBIR技术诞生以来,国内外研究学者对图像低层和高层特征提取和图像检索技术进行了大量研究和实验,力图找到描述图像的有效特征和高效的图像检索方法。本节将分别介绍图像的情感语义分析和检索技术的研究现状。

1.2.1 图像的情感语义分析

情感问题的研究一直被视为心理学领域的研究内容,随着计算机技术的快速发展,国内外研究学者逐渐将情感问题的研究引入计算机学科中,形成了“情感计算”研究方向。早在20世纪80年代,美国麻省理工学院的媒体实验室就从计算机对人的情绪及感觉的感知开始了有关情感计算的研究[9]。日本从20世纪90年代中期进行“感性工程”研究,旨在让计算机处理感性信息,实现“以人为本”[10]。我国于2003年12月在北京成功举办了“第一届中国情感计算及智能交互学术会议”,正式拉开了我国研究在该领域的序幕[11]。2005年10月,“首届国际情感计算及智能交互学术会议”在北京开幕,围绕人机情感交互展开研讨,进一步推动了情感计算、智能交互这一前沿领域科学研究的发展[12]。对于图像的高层情感语义,其研究在国内外如火如荼,但因情感的抽象性和主观性,图像的情感语义分析有着自身的特点。近年来研究的重难点主要有:①图像情感语义的表示方法及情感建模;②图像情感语义特征的提取。

1.2.1.1 图像情感语义的表示方法及情感建模

心理学家使用“维量”分析方法研究情感问题[13],施洛伯格提出了情绪的三个维量:愉快—不愉快,注意—拒绝,睡眠—紧张;奥斯古德提出了针对演员的表情的三个维量:愉快—不愉快维,强度维和控制维;弗里达提出了六个维量:愉快—不愉快,激活,注意—拒绝,社会评价,惊奇,简单—复杂;后来普拉奇克使用一个倒立的锥体描述了情绪的复合维模式,刻画了八种情绪(喜悦—悲伤,赞同—反感,预期的—出乎预料的,恼怒—恐惧)和三种维量(强度、相似性和极性)。维量思想在情绪分析中起着重要作用,但其难点是分析维的含义和名称至今没有一个统一的标准。

在计算机领域,研究学者主要研究图像的视觉特征与情感理解的关系及情感的建模。Yuichi Kobayashi等[14]通过实验证明了颜色和方向多分辨率的对比对人的主观感知的重要性。毛峡等[15]通过分析图像的情感特征建立了一个二维波动数学模型,提出了一种图像波动分析方法,对图像给出了和谐感评价,实验证明了符合“1/f”波动规律的图像能给人以和谐与美的感觉。王上飞等[16]等从心理学的“维量”思想出发,使用语义量化技术和因子分析方法建立了情感空间。Yoshida等[17]定义了图像的三种情感感受:舒适、杂乱、单调。Sung-Bae Cho等[18]对图像讨论了高兴、沮丧和凉爽三种情感并进行了检索查询。Colombo等[19]根据经验定义了几个常用的形容词(温暖的、清凉的、自然的等)来描述图像的情感,并建立了情感空间。Baek等[20]通过调查问卷的方式确定了52种图像模式及其对应的55种情感因子,建立了情感因子空间定义低层视觉特征与高层情感之间的关系,并进行了度量。Shin Yunhee等[21]建立了一个情感预测系统,对纹理图像预测情感语义,预测准确率可达92%。李娉婷等[22]结合人们对颜色的理解,建立了颜色特征与情感语义的对应关系,提出了一种基于颜色特征的家居设计图像情感分类方法,将家居图像分成清新自然、温馨浪漫、恬静清爽、柔和优雅四个情感类别,使用径向基神经网络(RBF)完成分类。目前在图像情感语义的表示方法上,关键是选取合适的情感形容词描述情感,大多数研究学者都是根据自己的经验定义情感形容词,没有一个标准的表示模式。

情感建模的研究在国内外还处于初级阶段。常见的情感模型有以下几种:基于认知的情感模型、基于概率的情感模型和其他情感模型。OCC模型是典型的基于认知的情感模型,由Andrew Ortony等在他们的The Cognitive Structure of Emotions一书中提出,根据事件、目标和动作等评价标准形成22种情感[23]。该模型因易于在计算机上实现而在计算机和心理学领域得到了广泛的认可。Elliott等[24]在1994年又将情感状态扩展成26种。OCC模型为我们提供了一个情感分类的方案和基于规则的情感导出机制,但它仅仅考虑了情感的认知因素,而没有考虑如性格、心情等影响情感的非认知因素。Yasmin Hernandezl等[25]将OCC模型与动态决策网络相结合,提出了改进的OCC模型,更好地描述了人类情感,但仍然没有处理非认知因素。后来也有一些改进的模型被提出来,但都没有彻底解决上述问题。HMM(隐马尔科夫)模型是典型的基于概率的情感模型。Picard[26]于1995年提出将HMM模型应用到情感建模中来。Wang[27]等对基于HMM模型的情感建模方法做了深入细致的研究,取得了一些成果。Chen[28]等结合粗糙集和HMM模型建立了一个情感模型,描述了静态的情感空间和情感的动态变迁过程。但是由于HMM模型是使用概率来描述情感的,并未考虑产生情感的认知和非认知因素,从而导致相同的刺激,其感知是确定的。实际上,不同的人对于相同的刺激,其感知不一定相同;同一个人在不同的环境下,对于相同刺激,感知也不一定相同。基于概率的HMM情感模型不能很好地处理这些问题。基于维度的情感模型和多层情感模型是其他情感模型的代表。基于维度的情感模型通过假设少量的离散情感和较小的情感变化范围描述情感,使得情感处理简单化,但因其没有考虑非认知因素,应用得较少。在多层情感建模方面,Kshirsagar [29]第一次将性格和情感相联系,提出了一个“性格—心情—情感—表情”多层情感模型,对人的面部表情虚拟合成。Gebhard Patrick[30]进一步PAD空间描述心情,拉近了性格和情感的关系。李海芳等[31]研究了情感与性格、心情衰减的关系,提出了一种多层情感模型。但由于这些模型都不能很好地描述人们复杂的心情,未能处理好人的性格、心情和情感之间的复杂关系,缺乏通用性和实用性。

1.2.1.2 图像情感语义特征的提取

图像特征是对图像属性的描述,图像特征的提取是图像标注、分类、检索的基础。每幅图像都有自己的特征,有的特征是我们视觉直接感受到的(颜色、纹理、形状等),也有的特征是描述图像中包含的对象或场景的,还有的特征是通过人们感知获得的。根据人们对图像理解的层次,可将图像特征分为低层视觉特征、中层语义特征和高层语义特征三个层次。图1-5是图像特征的层次模型。低层视觉特征即图像的视觉特征,是传统的图像分类、检索中常常使用的特征;中层语义特征常用的方法包括语义对象方法、语义属性方法和局部语义概念表示方法;高层语义特征是更加抽象的特征,主要包括场景语义、行为语义和情感语义特征。

图1-5 图像特征的层次模型

Fig.1-5 The Hierarchical Model of Image features

图像低层视觉特征包括全局特征和局部特征两种。常见的表征图像全局特征的有颜色、纹理和形状等。在图像处理过程中,颜色是最重要和敏感的视觉信息,是最基本的特征。由于颜色对于图像的尺寸、方向和视角依赖很小,因而具有很强的鲁棒性。常见的全局颜色特征的提取方法有颜色直方图[32]、颜色矩[33]和颜色熵[34]。这些方法计算简单,但因不包含任何空间信息而经常导致检索出错,因此研究学者也提出一些改进的方法,如改进的颜色直方图、颜色聚合向量、颜色相关图等[35]。纹理是刻画图像相邻像素间灰度空间分布规律的特征,是物体表面共有的内在特性。提取纹理特征的方法主要有结构分析法(共生边界图)[36]、统计分析法(矩阵法)[37]和频谱分析法(Gabor变换纹理特征提取法)[38]。形状是表征图像属性的另一视觉特征,但因形状的提取以图像的分割为基础,当前的图像分割技术效果并不理想,另外很大一部分图像(如场景图像)并没有明显的形状,因此形状特征一般应用于一些特殊领域中。目前,常用的形状提取方法有基于边界的方法(傅里叶描述子)和基于区域的方法(不变矩、区域面积等)[39]。图像的全局特征提取方便,计算简单,但它无法反映图像某些区域的明显变化,而研究表明,区域特征更能反映图像的本质。尺度不变特征变换(Scale Invariant Feature Transform, SIFT)是在2004年由Lowe提出的最具有代表性的区域特征提取方法,因具有很好的稳定性而得到了广泛的应用[40]

为减小低层视觉特征和高层语义特征之间的“语义鸿沟”,人们提出了中间语义特征。目前,在图像处理中常用的中间语义特征包括:语义对象特征、语义属性特征和局部语义概念表示特征。语义对象特征就是识别和提取图像中包含的对象来描述图像。Luo等[41]通过提取图像的语义对象特征,使用贝叶斯网络提出了一种基于语义的图像理解方法。江悦等[42]以语义对象特征为基础,构建并提取了图像的上下文金字塔特征,实现了对场景图像的分类。相对于图像的其他语义特征,图像的语义对象特征提取方法简单,易于实现,但它对图像的理解与人们的实际理解还有很大的差距,因此,仅仅通过提取语义对象特征对图像进行语义理解是远远不够的。语义属性特征一般与图像的整体布局和结构紧密相关,常常使用图像的全局统计特性来定义。最具有代表性的是2001年Oliva和Torralba提出的语义属性特征提取方法[43]。他们提出了一种面向场景的地位空间—空间包络,在这个空间定义了五个感知维度(自然度、开阔度、粗糙度、伸展度和险峻度)来表示场景的主要空间结构。该方法提出的语义属性特征计算简单且运算速度快,但其描述比较粗略,易受环境因素的影响,而且对各种变化的适应性较差,因此只能在一些简单的图像处理中获得不错的效果,随着图像数据量的增大和复杂性的增强,这种方法的效果就不理想了。局部语义概念表示特征是通过构建图像局部特征到局部语义概念的映射,再根据语义概念在图像中的布局情况来表示图像语义的,是目前常用的中间语义特征提取方法。局部语义特征的提取以图像的分割为前提。Mojsilovic等[44]使用图像的颜色和纹理信息分割图像,然后建立图像分割区域的语义指示器,最后使用语义指示器识别图像的语义。Fan等[45]提出了自然风景图像的统计建模和概念化,使用概念相关性实现自然风景图像的识别。Julia Vogel等[46]利用子块的思想分割图像,建立了子块的语义概念模型,实现了对自然风景图像的检索。van Gemert等[47]使用上下文相关的概念提取了图像的局部语义特征,实现了图像的场景分类。局部语义概念特征在一定程度上能够更好地解释图像,表述图像蕴含的语义,但其产生的主要问题有:①提取图像的局部语义特征需要好的图像分割,目前无论是使用分割算法还是子块的思想都达不到理想的分割效果,因而无法保证获取准确的图像局部语义。②局部语义特征的提取需要预定义一些语义概念,目前语义概念的定义主观性较强,一般是研究者根据经验随机定义,而且语义概念模型需要大量的人工标注,费时费力,自动化程度差。

高层语义特征旨在获取图像的高层语义信息,主要包括场景语义、行为语义和情感语义,是近年来的研究热点。场景语义是图像的内容表示,如草原、乡村等;行为语义是图像所包含的事件信息,如一场比赛、晚会等;情感语义是图像蕴含的情感体现,如高兴、生气等。在图像高层语义特征提取方面,比较有代表性的研究成果有:Luo等[48]通过提取图像的低层视觉特征和场景语义特征,提出了一个基于贝叶斯网络的语义理解框架,实现了图像中物体对象的检测和室内外场景图像的自动分类。Li等[49]对艺术图像提出了一种模糊语义特征的描述和提取方法,构建了一个艺术图像检索系统。Lee等[50]对电影片段做了情感识别,通过提取情感语义特征,建立了一个情感识别系统来识别人们在看到某个电影片段时的情感。张海波等[51]通过构建二维图像情感因子空间提取图像的情感语义特征,实现了男西装图像的情感语义识别。图像高层语义特征,尤其是行为语义特征和情感语义特征的提取现处于研究起步阶段,研究的难点表现在情感模型和情感词的选择以及情感语义特征的表述方面。

1.2.2 图像检索技术研究现状

图像检索技术的研究最早起源于20世纪70年代末期,当时使用的是基于文本的图像检索(TBIR)技术。到了20世纪90年代初期,研究学者提出了基于内容的图像检索(CBIR)技术。随着“多媒体内容描述接口”(MPEG-7)标准的推出,CBIR技术逐渐成熟和完善,同时,研究学者也开始研究基于语义的图像检索(SBIR)技术。

1.2.2.1 基于文本的图像检索(TBIR)技术

基于文本的图像检索技术主要是通过人工对图像进行标注,然后根据用户输入的关键字匹配图像库,检索出相关的图像。该检索方法的性能极大地依赖于人工标注的结果,因此主观性特别强,而且大型的图像库需要耗费大量的人工和时间进行图像标注,非常耗时耗力[52]。也就是说,基于文本的图像检索技术是一种低效的、主观的、不完善的检索方法,其检索结果也很不尽如人意。

1.2.2.2 基于内容的图像检索(CBIR)技术

相对于基于文本的检索技术,基于内容的图像检索技术能够客观地反映图像的内容。目前已经有很多成功的应用,包括基于颜色特征的图像检索、基于纹理特征的图像检索、基于形状特征的图像检索和基于空间特征的图像检索。

近年来,国内外研究学者已经提出许多利用低层视觉特征检索的图像检索技术[53-68],有基于颜色特征的[53-60],基于纹理特征的[59-66],基于形状特征的[67]及基于空间特征的[58,68]检索方法。这些方法已经广泛应用于各类图像检索任务中,但检索效果不是很理想。在文献[53-60]中,颜色特征分析被证明是用于图像检索较好的特征。Swain等[53]使用颜色直方图进行图像检索,主要是因为颜色直方图提取过程简单,计算速度快。灰度级上基于纹理特征的方法[59-66]在图像检索系统中应用最广。虽然对于纹理特征的描述没有统一的定义,人们一般根据直觉使用粗糙度、对比度和能量等参数来描述纹理。单一特征的检索效果经常令人不满意,因此,颜色特征通常与图像的纹理、空间关系、形状等特征结合应用在图像检索系统中[59,60,63,67]。此外,研究者也经常使用一些智能算法来优化特征提取。Huang等[62]提出一种结合小波分解和梯度向量的基于纹理特征的图像检索方法。Jhanwar等[63]建立了一个基于MCM(Motif Co-occurrence Matrix)的图像检索系统,通过计算相邻区域内像素出现的概率,将像素之间的差异变换为基本图形作为提取的图像特征。Lin等[59]提出了一个智能的基于颜色和纹理特征的图像检索系统。

基于内容的图像检索技术取得了一定的成果,目前在互联网上也有一些相关的应用系统,比较著名的有IBM的QBIC系统和哥伦比亚大学开发的Visual SEEK系统等,但因其在检索过程中仅仅考虑图像的视觉特征,完全没有顾及人们观察图像的视觉感受,因此,随着图像数量和种类的剧增,其检索结果与人们需要的结果差距越来越大。

1.2.2.3 基于语义的图像检索(SBIR)技术

为了缩小“语义鸿沟”,按照人们对图像的实际理解检索图像,研究学者开始研究基于语义的图像检索(SBIR)技术。早在2002年之前,一些研究学者就提出了一些从语义层面理解图像的基于计算机视觉和机器学习的图像检索系统[69-71]。近年来,Ferecatu等[72]提出了一种改进的基于支持向量机的主动关联性反馈框架,使用视觉特征和概念内容表示进行检索。虽然提出的关联反馈框架使得图像检索结果更能符合用户的需求,但图像概念特征向量的计算复杂度非常高。Lakdashti等[73]提出一种模糊的建模方法用于图像语义检索,缩小了“语义鸿沟”,建立的模糊系统能够在检索任务中模拟人们的行为,构建模糊规则进行训练和测试,实验证明提出的模糊系统提高了检索准确率和召回率。Singh等[74]提出了基于多特征的图像语义检索方法,使用图像、纹理和形状三种特征混合检索,提高了检索性能。Patil等[75]采用关联反馈实现了基于Adaboost算法的图像语义检索,因关联反馈是实时交互过程,研究者通过在每一次反馈迭代过程中优先考虑正实例优化了学习过程,构建的系统主要优点是训练样本少,检索时间短。以上研究成果都是从图像的场景语义和行为语义层面考虑检索的,对于基于情感语义的图像检索,由于情感的感知和处理比较困难,目前尚处于研究初级阶段,但人们逐渐认识到这种“以人为本”的检索的重要性,因而也成了目前的研究热点。基于情感语义的图像检索旨在对图像做情感分类,并进行情感建模,让人们检索到适合自己感知的图像。目前,国内外也有部分大学和研究机构已经开发出一些基于情感语义的检索系统。比较经典的有日本Human Media实验室研制开发的Art Musuem[76-79],采用线性方法将颜色作为主要的情感特征进行检索。由Nadia Bianchi-Berthouze等研发的K-DIME[80-87]是一个根据图像的主客观描述检索Web图像的软件模型,它使用聚类、关联规则挖掘等数据挖掘算法建立情感模型,并通过用户反馈改变情感值。我国王上飞等提出了情感注释的思想,使用支持向量机实现低层视觉特征到高层情感语义特征的映射,研发了个性化情感检索系统和服装设计情感获取信息系统[16,84-87],前者提取了自然风景图像的颜色、形状及灰度特征,并将其进行语义映射,后者根据服装图像的款式、长短、面料、纹理等属性构造了服装图像的情感特征空间。总之,目前基于语义的图像检索技术还很不成熟,在理论和应用方面都存在很多问题亟待解决,尤其是在图像的情感语义分析和检索技术研究方面尚需开展深入的研究,关于场景图像情感语义的研究成果甚少,有待研究学者进一步探索和研究。