机器学习算法实践:推荐系统的协同过滤理论及其应用
上QQ阅读APP看书,第一时间看更新

第1章 理论入门

1.1 引言

信息技术的迅猛发展使人类社会由信息匮乏时代进入信息过载时代,而信息过载为用户在选择最中意的产品时带来沉重的处理负担。以电子商务网站为例,用户往往囿于潜在需求而无法用关键字表达或者搜索关键字表达不准确,从而不得不从浩如烟海的信息海洋获取真正需求的信息。

针对上述问题,为满足用户和企业的共同需求,满足不同用户偏好的推荐系统应运而生。此外,社会经济的快速发展带来种类繁多的产品类型,使得用户的购买目的更多地体现出固有的个体特性,在满足物质需求的基础上,推荐系统根据用户的历史行为,例如点击、购买和收藏等去挖掘用户的偏好信息,进而进行个性化推荐。为增加用户的黏性,越来越多的网站和社区开始采用推荐系统为用户提供个性化的优质服务。同时,随着Web 3.0时代的到来以及“互联网+”理念的提出,人们越来越意识到推荐系统的重要性并纷纷投入其中。例如,亚马逊、eBay、天猫、京东等电子商务网站、Facebook、Twitter和新浪微博等社交媒体均纷纷在原有业务的基础上增加推荐功能。事实表明,推荐系统的融入显著提高了用户的满意度和对网站的黏性,进而为其自身带来了可观的经济效益和社会影响力。

不过,单纯地以用户和项目为驱动的推荐引擎并不能满足相关用户的实际需要,用户在实际购买之中往往会结合自己的实际需要以及相关朋友(本书称为社交网络信息)的推荐来做最终选择,同时传统推荐算法往往带有很严重的“马太效应”。也就是说,推荐的商品往往都是热门的商品,因此造成热门的商品更加热门,而处在“长尾分布”上的商品仍得不到重视。为此,将社交网络与个性化推荐相结合提高推荐的精确度是近年来的研究热点。

在海量数据的虚拟环境下,电影网站提供的节目信息非常多,例如按演员来说,每天都会更新该演员出演的电影,包括蓝光、高清、标清和流畅等,这样每天网站上的数据量都有成千上万太字节(1TB=1024GB),而仅仅通过一台微型计算机或手机屏幕,希望观众找到一个自己真正喜欢的电影是不可能的。因此,社区或网站提供了一些智能导购的需要。例如京东的JIMI,根据用户的兴趣推荐用户可能感兴趣的物品,用户可以很容易地找到他们所需要的或感兴趣但不容易得到的明确的项目。而且,从实际情况来看,用户的需求往往是对商品或事件的兴趣,但目前还不清楚什么商品可以满足其潜在需求。这时,如果商家基于用户的历史行为分析出其感兴趣的信息并将这些信息呈现到用户面前,就可以把用户的潜在需求转化为现实的需求,从而给用户带来惊喜。