Web用户查询日志挖掘与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 移动搜索研究的知识图谱分析

以国外的Web of science和EI数据库、国内的CNKI数据库收录的移动搜索领域文献为载体,在提取文献关键词、作者及机构等信息的基础上,本章综合利用统计分析、文献计量、社会网络分析、数据挖掘等多种科学知识图谱方法和工具,对国内外移动搜索领域的研究热点和科研合作网络等进行了对比研究和可视化展现。进一步分析显示,国内和国外的移动搜索研究几乎同时起步,国外的在各分支子领域的研究更加广泛和深入,在用户行为分析方面出现了几个稳定和高产的科研团体;而国内的研究以概念性的引入和宏观性的综述为主,稳定高产的科研团队较少。

2.1 引言

移动搜索是指在移动通信网络中,用户利用各种移动终端、通过多种接入方式 (如SMS、WAP、IVR等) 查找WEB或WAP站点上网页内容的一种信息搜索方式,是移动互联网的重要组成部分。近几年,移动搜索在国内外都呈现出强劲的发展势头[1,2]。成为移动运营商、手机终端厂商、互联网信息内容服务提供商和相关领域科研人员持续关注的热点,研究内容涉及多个领域,如移动通信、信息检索、自然语言处理、人工智能、人机交互等[3,4]

利用科学知识图谱方法,本章对国内外移动搜索领域的研究热点、子领域、科研团队等进行全面的概括和分析。进行该项研究工作的意义包括如下三点:①移动搜索是一个新兴的、多学科渗透的交叉研究领域,整体性的文献计量和知识图谱分析不仅可以使研究者对该领域有宏观把握,还可以帮助该领域专家及时借鉴相关研究成果、了解相邻子领域的动态[5]; ②对比国内外不同的研究热点和子领域,有助于学者发现我国该领域研究的优劣势,进而寻找新的研究切入点;③对研究团队的识别有利于学者之间的科研合作和学科之间的知识流动。

2.2 数据分析方法与工具

科学知识图谱 (knowledge mapping) 是以共现分析、词频分析、引文分析等文献计量方法为基础,以图像、图形的形式展现科学领域的发展历程、研究现状及热点前沿,并揭示科学知识之间的联系与知识发展规律的方法和工具。近年来,知识图谱广泛应用于各个学科的知识发现,并取得诸多的研究成果[5-8]

本章主要使用的软件工具如下。①Pajek:是进行大型复杂网络的分析软件,可以进行上万个结点的可视化网络的绘制[9],本章将基于社会网络分析方法,利用该软件进行关键词共现网络和作者合著网络的绘制。②Endnote:是一款文献下载、管理软件,可以支持主流数据库 (如SCI、EI、ABI等) 文献题录信息的下载、格式转换、保存和导出等。

2.3 数据获取与数据预处理

2.3.1 国外文献的获取与预处理

对于国外的研究文献,选取了Web of Science (包含SCI、SSCI、A&HC) 和EI (The Engineering Index) 作为文献来源数据库。由于“移动搜索”是一个新兴的研究领域,“mobile search*”“wireless search”等少数几个专指词并不能完全覆盖领域内所有文献。为提高查全率,本章采用了引文珠形增长型的检索策略。该检索策略是从已知的少数几个专指词开始检索,得到若干篇文献,人工审阅这些文献,从中选出新的相关检索词,补充到检索式中,将这些词加入检索式之后,就能查出其他新的命中结果。不断重复进行上述过程,直到找不到其他适合包含于检索式的附加词为止[10]。依据该检索策略,本章最终检索式为:主题=“mobile search*”OR“mobile Web search”OR“mobile visual search”OR“mobile media search”OR“mobile landmark search”OR“mobile social search”OR“mobile ringtone search”OR“mobile internet search”OR“mobile image retrieval”OR“mobile information retrieval”OR“wireless search”OR“wireless Web search”OR“wireless information retrieval”OR“cell phone search”OR“cell phone information retrieval”。打开词形还原,选择所有年份。经过检索,Web of Science反馈172篇,EI反馈281篇 (检索时间点为2012年8月23日)。通过Endnote软件分别下载题录信息,所选取的字段包括“题名、作者姓名、作者机构、发表时间、发表期刊、关键词、摘要”等。

对数据所进行的预处理工作主要包括如下几点。①主题筛选:由于移动互联网和移动搜索是在2004年才逐步形成相对独立的研究领域,故在此之前发表的论文予以剔除。②论文去重:由于部分论文同时被Web of Science和EI收录,通过对比“题目”“作者”“发表时间”等字段,剔除重复的题录信息。③格式统一:为了方便后文的关键词和合作团队分析,这里进行大小写转换、同义词替换、作者的映射等处理。④将作者机构中包含“china”的54条题录剔除。至此共获得符合“移动搜索”主题的规范文献题录信息250条。

2.3.2 国内文献的获取与预处理

对于国内的研究文献,选取收录中文文献较为全面、比较有代表性的中国知网 (CNKI) 为来源数据库,同时将国内作者在Web of Science和EI中发表的54篇文献计入国内研究文献。在对CNKI检索时,检索式为:主题=“移动搜索OR无线搜索OR手机搜索”;检索时间点为2012年8月23日。检索结果显示有相关文献726篇。需要说明两点:①由于研究术语的非统一性,在检索式编写中,本章特别注意了相似概念的全面覆盖;②考虑报纸文献的内容和期刊文献学术程度差异较大,且关键词、作者和摘要的著录并不全面,故在数据获取时,去掉了来自“中国重要报纸全文数据库”的文献,对CNKI检索获得题录307条,加上Web of Science和EI中收录的54条,共计361条题录。

2.4基本统计结果

统计国内外移动搜索领域论文的年代分布,结果如表2-1所示。该表显示:①移动搜索领域发表论文的数量整体呈增长趋势。其中,文献数在2007年出现了较大幅度的增长,原因可能是:2007年全球3G就已经呈现快速增长的趋势,3G用户在欧美的普及率接近了10%,尤其是美国的移动运营商大力推广无线互联网的增值业务[11],这些都为移动互联网的发展奠定了基础。②国内在移动搜索领域的研究和国外几乎同时起步。③2008年后,国内外关于该领域的研究成果趋于稳定。2011年,国外研究成果呈较快增长态势,可能是与全球智能手机的普及及移动互联网技术的迅猛发展有较大关系。国内研究成果也有所增长,但是增长幅度不大。

表2-1 国内外移动搜索领域历年文献数量

2.5 基于关键词共现的知识图谱分析

2.5.1 关键词词频统计情况

(1) 国外文献关键词词频统计。提取国外文献所有关键词,统计词频并排序,结果见表2-2。该表显示“移动设备、手机、移动通信系统、GSM、无线网络、信号处理、互联网、万维网、搜索引擎”等为移动搜索领域的热点研究内容,这表明与传统PC搜索相比,移动搜索的特征主要体现在设备和通信方式上。从技术层面上,很多学者关注搜索技术的实现,如“算法、移动计算、查询语言、语音识别、计算复杂度、本体、元数据、信号处理”等。在应用层面,学者更加关注用户需求的体察,如“用户界面、人机交互、信息服务、基于地理位置的服务、行为研究”等。此外,“知识管理、信息管理、市场营销”与移动搜索的结合也引起了研究人员的关注。

表2-2 国外移动搜索领域文献关键词的词频统计

(2) 国内文献关键词词频统计。提取国内文献所有关键词,为便于统计,将国内学者在Web of Science和EI中发表文献的关键词进行翻译,统计词频并排序,结果见表2-3。该表显示:“手机、移动设备、移动互联网、WAP、无线互联网、移动通信系统、互联网、搜索、信息检索”等为移动搜索领域的热点研究内容,表明国内研究热点主要体现在设备和移动互联网上。从技术层面上,很多学者关注移动代理技术,如“遗传算法、Aglet、移动代理、移动Agent、J2ME”等。在应用层面,学者比较关注数据挖掘、相关反馈等移动搜索的基础应用。

表2-3 国内移动搜索领域文献关键词的词频统计

(3) 对比分析。仅从关键词词频来看:①国内外在热点研究内容上基本相同,与传统PC搜索相比,既有移动搜索特有的内容,也有共同关注的内容,并突出了搜索的“移动”性特征。②在技术层面上,国外更为关注移动搜索技术的实现,研究比较全面、具体、深入;国内则停留在“移动代理”上,对具体的实现技术研究还不够。③在应用层面上,国外比较关注如何提高人机交互水平和提供更多的服务,国内的研究比较笼统。另外,国外在移动搜索领域引入了“知识管理、信息管理、市场营销”等概念。

2.5.2 关键词共现分析

共现分析方法最早是由法国国家科学研究中心的文献计量学家们于20世纪80年代提出来的。两个或者多个关键词在同一篇文章中同时出现称为关键词共现。通过描述关键词与关键词之间的关联与结合,可以揭示学术领域研究内容的内在相关性和学科领域的微观结构[12,13]。通过对关键词共现情况的分析,从而归纳出该学科或领域的研究热点。

(1) 国外文献关键词共现分析。基于关键词共现分析的方法,利用软件分析工具Pajek,同时结合Java编程,实现“国外移动搜索领域关键词共现网络”的绘制。在关键词共现网络中,点即代表某关键词,点与点之间的边则代表两个关键词在同一篇文献中出现等。按照文献[7]中的方法,构建关键词共现网络,简化后的网络结构如图2-1所示。

图2-1 国外移动搜索领域关键词共现网络

在图2-1中,结点圆圈的面积大小表示结点的度值;结点之间的边粗细程度表示共现次数。国外文献关键词共现网络由6个部分构成,即图中A~F对应的子网络。不同子网络代表不同的研究热点。子网络A:研究人员对构建移动搜索服务的系统、移动信息资源的组织和如何提高用户体验等方面予以了关注。子网络B:研究人员对图像的移动搜索进行了研究。子网络C:针对无线网络的特点,研究人员开发了软件,以实现基于移动搜索的各项服务。子网络D:针对如何使具有照相功能的移动设备如照相手机、平板电脑等产生的图像与现实进行匹配,从而实现可视化搜索的问题,研究人员对增强现实、虚拟现实的问题进行了关注。子网络E:本体和语义网。子网络F:语音识别和信号处理,主要用于实现移动设备的语音搜索功能。

(2) 国内文献关键词共现分析。采用同样的方法绘制国内移动搜索领域关键词共现网络,如图2-2所示,该图显示:国内文献关键词共现网络由6个部分构成,即图中A~F对应的子网络。不同子网络代表不同的研究热点。子网络A:国内研究人员关注构建移动搜索系统的各个环节,另外还有学者对移动搜索的商业行为进行了关注。子网络B:国内研究人员针对手机POI搜索的优化和提高用户体验给予了关注。子网络C:根据移动搜索的特点,研究人员对信息资源的组织方法进行了研究。子网络D:研究人员对移动搜索的基础技术——移动代理予以了关注。子网路E:移动搜索的具体算法。子网络F:数据挖掘和聚类分析。

图2-2 国内移动搜索领域关键词共现网络

(3) 对比分析。仅从关键词共现来看:国外的研究范围更加广泛,从搜索技术到用户行为,从市场格局到运营模式。相对而言,国内的研究整体水平不高,现有的研究还大多停留在移动搜索概念的引入阶段和基础理论和技术,或者比较宏观的用户和市场描述,对具体的移动搜索技术改进、用户行为和市场运营探究较少。

2.6 基于作者合著的知识图谱分析

科研合作是科学共同体中普遍存在并日渐加强的一种互动方式。在每个科学研究领域都存在一定数量的科研小团体,他们在各自的领域进行有推进性的钻研,同时通过彼此合作进行知识的分享和传递;科研合作网络也是描述科研人员人际关系的网络,通过直观的网络呈现,可以帮助科研人员对领域内的科研合作及其分布有一个概括而清晰的认识,进而找到合作伙伴或发现研究前沿[5]

2.6.1 国外文献作者合著分析

基于社会网络分析方法,利用Pajek并结合Java编程,实现“国外移动搜索领域科研合作网络”的绘制。在科研合作网络中,点即代表某个具体的科研实体,如作者、机构、国家等,而两个点之间的边则代表他们进行了共同的科研活动,如发表论文、出版专著、发明专利等。按照文献[7]中的方法,我们以作者为顶点,以作者之间合写论文为边构建作者合著关系网络,简化后的网络结构如图2-3所示。

图2-3 国外移动搜索领域主要研究团体

在图2-3中,每个结点代表一个作者,结点的度值越大,表现为结点圆圈的面积越大;结点之间的边表示两个作者进行了论文的合著,合著次数越多,边的权值越大,线条越粗。图2-3显示:国外移动搜索引擎研究领域已经出现了一批突出的、合作关系密切的研究合作团体,即图中A~F对应的子网络;每个研究团体都有一些相对核心的学者,如S S Tsai, B Girod, K Chruch, C Feijoo, O Bouidghaghen, P Ehien, S Baluja等人有较高的度值,分别是各自研究团队的核心和桥梁。

为深入了解这几个核心研究团队的信息,我们查阅了题录信息和相关论文的具体内容,如作者所在机构、主要研究方向等,汇总结果见表2-4。该表简要地概括了几个科研团队的主要研究方向,并显示了科研合作团队的成员主要来自高校计算机学院、IT公司、电信公司,以及高校和公司开展合作研究的团队;多数科研团队的研究兴趣涉及人机交互、数据挖掘、自然语言处理、人工智能等研究内容。

表2-4 国外移动搜索领域几个核心研究团体概况

2.6.2 国内文献作者合著分析

采用3.6.1节的方法绘制国内移动搜索研究领域的主要科研团队,结果如图2-4所示。该图显示:国内移动搜索研究领域初步形成了一批合作关系密切的研究合作团体,即图中A~F对应的子网络;每个研究团体都有一些相对核心的学者,如Yao H、Gao W、王雪、王知津、Yang J、Zheng J F、方金云等人有较高的度值,分别是各自研究团队的核心和桥梁。

图2-4 国内移动搜索领域主要研究团体

这几个核心研究团队所在的机构、主要研究方向等,汇总结果在表2-5中。整体来看,在该领域国内的核心科研团队还不多,各团队的发文数量不多,2~5篇不等。个人独著论文占多数,中文文献研究也不够深入。该表显示,国内科研合作团队成员主要来自高校计算机学院和科研院所;公司与公司间合作以及院校和公司间合作较少。

表2-5 国内移动搜索领域几个核心研究团体概况

对比分析:从作者合著情况来看,国外已经形成几个比较稳定且高产的作者团队,他们来自各个搜索引擎公司、电信公司以及高校计算机、人机交互和图书情报实验室,他们的代表性文献被广泛引用;而国内比较核心的科研团队还比较少,目前主要是来自高校的经济管理和计算机专业,还有少部分学者来自图书情报领域。

2.7 小结

移动搜索是基于移动互联网的一种新的搜索模式,其用户行为、产业链构成都与传统PC搜索存在一定的差异。国内外研究人员从2004年开始对移动搜索的研究持续增强和深化,从移动搜索的基本概念到实现技术,从构建移动搜索系统到用户行为研究,从搜索的算法到基于移动搜索展开的各项服务,部分技术已经成熟,并实现运营,从理论走向应用。但是我们也应当看到,国内对移动搜索的研究还不够全面和深入,成熟高产的科研合作团队较少。

参考文献

[1]Google I O M. The Mobile Moment: Understanding Smartphone Users[EB/OL]. 2011, www.Google.com/think/insights.

[2]易观智库产业数据库.2011年第4季度中国无线搜索市场季度监测[EB/OL]. 2011, http://www.enfodesk.com/.

[3]Kim Y, Jeon S, Kim M. User needs of mobile phone wireless search: focusing on search result pages[J]. Human Centered Design, 2009:446-451.

[4]Bouidghaghen O, Tamine L, Boughanem M. A diary study-based evaluation framework for mobile information retrieval[J]. Information Retrieval Technology, 2010:389-398.

[5]李雷明子.基于日志分析的移动搜索用户行为研究[D].北京大学硕士论文.2012.

[6]张鹏.我国图书情报研究的知识图谱分析[D].北京大学硕士论文.2010.

[7]王继民,李雷明子,张鹏.搜索引擎日志挖掘领域的论文合著网络分析[J].现代图书情报技术,2011 (4):58-63.

[8]刘则渊,陈悦,侯海燕,等.科学知识图谱:方法与应用[M].北京:人民出版社.2008.

[9]Nooy W d, Mrvar A, Batagelj V. Exploratory Social Network Analysis with Pajek[M]. Cambridge: Cambridge University Press, 2005.

[10]赖茂生,赵丹群,韩圣龙,等.计算机情报检索 (第2版)[M].北京:北京大学出版社,2012.

[11]向文杰.移动互联网发展的回顾与展望[J].电信技术,2009, 67 (001):66-69.

[12]刘则渊,王贤文,陈超美.科学知识图谱方法及其在科技情报中的应用[J].数字图书馆论坛.2009 (10): 14-34.

[13]陈悦,宋刚,郑刚,等.中国创新管理研究的知识结构分析[J].科研管理.2011 (2): 10-19.

[14]姜春林,杜维滨,李江波.经济学研究热点领域知识图谱:共词分析视角[J].情报杂志,2008, 27 (9):78-80.

[15]曹玲,杨静,夏严.国内竞争情报领域研究论文的共词聚类分析[J].情报科学,2010 (6):923-925.