数据挖掘原理与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

上篇 原理篇

第1章 绪论

数据收集与数据存储技术的快速发展,使得各种组织机构积累了海量数据。如何从这些海量数据中提取有价值的信息以辅助决策,成为巨大的挑战。面对这种挑战,一种数据处理的新技术——数据挖掘(Data Mining)应运而生。数据挖掘是一种将传统的数据分析方法与处理大量数据的复杂算法相结合的技术。本章将概述数据挖掘,并列举本书所涵盖的关键主题。

引例

啤酒与尿布的故事

在一家超市,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了可观的利润。

这个故事是营销界的神话。“啤酒”和“尿布”两个看上去没有直接关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性。研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析可以帮助零售商在销售过程中找到具有销售关联的商品,并以此指导货架的组织,促进销售收益的增长!

广告精准投放

随着Web 2.0应用的推广,SNS(Social Network Service,网络社区服务)已成为互联网关注的焦点。SNS通过网络服务、数据处理,不仅能够帮助人们找到朋友、合作伙伴,而且能够帮助人们实现个人社会关系管理、信息共享和知识分享,拓展其社交网络,达成更有价值的沟通和协作。基于网络社区独特的用户群和黏性服务,其强大的营销价值日益被发掘。通过挖掘网络中潜在的社区人群,企业可以更好地搜索潜在客户和传播对象,将分散的目标顾客和受众精准地聚集在一起,精确地把广告投放给目标客户。这不但可以有效降低单人营销费用,而且可以减少对非目标客户的干扰,提高广告的满意度,最终实现网络广告投放策略的真正价值。这一技术已被当当网等商务网站广泛使用。

客户流失分析

客户是企业生存的基础,在市场化程度高的行业,企业之间竞争激烈,为了获取更多的客户资源和占有更大的市场份额,往往采取名目繁多的促销活动和层出不穷的广告宣传来吸引新客户、留住老客户。研究发现:发展一个新客户比保持一个老客户的费用要高出5倍以上。所谓客户流失,是指客户终止与企业的服务合同或转向其他同类企业提供的服务,在市场基本饱和的情况下,对老客户的保留将直接关系到企业的利益,客户流失将对企业的经营产生深远影响。针对这一问题,电信、银行、保险等行业都非常关注客户流失问题。客户流失分析是以客户的历史消费行为数据、客户的基础信息、客户拥有的产品信息为基础,通过研究综合考虑流失的特点和与之相关的多种因素,从中发现与流失密切相关的特征和流失客户的特征,以此建立可以在一定时间范围内预测客户流失倾向的预测模型,以便对流失进行预测,并对流失的后果进行评估,为相关业务部门提供有流失倾向的用户名单和这些用户的行为特征,以便相关部门制定恰当的营销策略,开展客户挽留工作,防止因客户流失而引发的经营危机,提升公司的竞争力。

智能搜索

在海量网络数据中,用户试图通过网络来快速发现有用信息变得非常困难,如何提高信息获取的效率成为研究人员广泛关注的课题。Web信息检索,即搜索引擎,是有效解决这一问题的重要工具。传统的搜索引擎,在用户输入关键词进行查询后,返回的是成千上万的相关结果,这往往导致用户需要花费大量的时间来浏览和选择,因此不能满足用户快速获取信息的愿望。另外,对于同一搜索引擎使用相同关键词进行搜索时,不同人得到的返回结果是相同的,然而不同的人期望的或关注的结果是不同的。如提交查询词“苹果”的两个人可能希望看到不同类型的信息,可能一个对水果的相关产品信息有兴趣,而另一个则倾向于获取电子产品的相关信息。因此大量研究人员开始研究行业化、个性化、智能化的第三代搜索引擎。例如,通过跨语言信息检索,可以方便地检索出不同语种的网络资源;通过文本聚类算法,对搜索返回结果进行分组处理,这样用户可以根据聚类结果快速定位到所需的资源上;通过显式或隐式地收集用户偏好信息,深层次地挖掘用户个人兴趣,为用户提供个性化的搜索和查询服务;通过交互的查询扩展功能改善用户查询用词,同时可使系统能更好地理解用户的检索意图。

入侵检测

随着互联网的发展,各种网络入侵和攻击工具、手段也随着出现,使得入侵检测成为网络管理的重要组成部分。入侵可以定义为任何威胁网络资源(如用户账号、文件系统、系统内核等)的完整性、机密性和可用性的行为。目前,大多数商业入侵检测系统主要使用误用检测策略,这种策略对已知类型的攻击通过规则可以较好地检测,但对新的未知攻击或已知攻击的变种则难以检测。新的网络攻击或已知攻击的变种可以通过异常检测方法来发现,异常检测通过构建正常网络行为模型(称为特征描述),来检测与特征描述严重偏离的新的模式。这种偏离可能代表真正的入侵,或者仅是需要加入特征描述的新行为。异常检测主要的优势是可以检测到以前未观测到的新入侵。与传统的入侵检测系统相比,基于数据挖掘的入侵检测系统通常更精确,需要更少的专家的手工处理。

上述例子来自不同应用领域,但背后都以数据挖掘为核心处理技术,利用数据挖掘技术发现隐藏的规律,为领域的决策提供支持。