机器学习算法实践:推荐系统的协同过滤理论及其应用
上QQ阅读APP看书,第一时间看更新

前言
PREFACE

个性化推荐与信息检索技术的目标一致,也是一种帮助用户更快速地发现有用信息的工具,但与信息检索技术不同的是,个性化推荐能够根据用户的历史行为显式或者隐式地挖掘用户潜在的兴趣和需求,为其推送感兴趣并且个性化的信息,已越来越受到研究者的追捧及工业界的青睐,其研究具有重大的学术价值及商业应用价值。如今基于个性化推荐算法的推荐系统已广泛应用于大型电子商务平台(如天猫、京东和亚马逊等)、社交平台(如新浪微博、Facebook和Twitter等)、新闻客户端(今日头条、天天快报等)以及其他各类旅游和娱乐类网站(如携程网、电影音乐社区等)中,在提高用户满意度和忠诚度的同时也为自身带来了可观的经济效益。

协同过滤推荐算法是个性化推荐中运用最早和最成功的一种推荐技术,它的任务是利用用户与项目评分矩阵中的已知元素来预测未知元素的评分值并将预测评分高的项目推荐给用户。协同过滤的最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象(如音乐、图书、电影和资讯类新闻内容等,这类产品是难以进行机器自动内容分析的信息),避免了内容分析的不完全和不精确,而且能够根据用户的历史行为推荐个性化的信息。传统的基于邻域模型的推荐算法分为数据收集(输入)、获得最近邻集合(主要是计算相似度)和预测并推荐(输出)等步骤。目前协同过滤推荐算法还存在数据的高维稀疏性、冷启动和大数据环境下扩展性等制约其进一步发展的瓶颈问题,如何解决以上问题进而提高推荐系统的推荐质量成为个性化推荐的关键,近年来基于协同过滤的推荐算法及其相关改进模型得到了学者们的广泛关注和研究。

本书作者一直从事推荐系统理论及其应用的研究工作,提出了一系列改进推荐质量的方法,并成功应用于多种复杂的实际问题。作者的这些工作大大丰富了推荐系统理论,尤其是所关注的协同过滤推荐算法对其在其他领域的进一步研究与应用奠定了技术基础,具有重要的理论意义和实际应用价值。

本书由河南理工大学计算机科学与技术学院王建芳独立完成,是作者在本领域所发表学术论文的基础上进一步加工、深化而成的,是对已有研究成果的全面总结。全书共分5篇14章。第一篇包括第1章,讨论了推荐算法的分类、各类算法的基本思想和改进策略,阐述推荐算法存在的问题、实验方法和评测指标。第二篇包括第2章和第3章,主题是围绕基于时序的协同过滤推荐算法展开研究。在推荐系统中随着时间的推移,用户的关注点在不断变化,如何捕获这一动态的时间效应是个难题。本篇针对基于时序的协同过滤推荐算法展开研究。第三篇包括第4~11章,主题是围绕基于矩阵分解的协同过滤推荐算法展开研究。矩阵分解模型能够基于用户的行为对用户和项目进行自动分析,也就是把用户和项目划分到不同主题,这些主题可以理解为用户的兴趣和项目属性。本篇针对SVD、概率矩阵分解、非负矩阵分解及其与相关算法的整合分别提出相关的理论。第四篇包括第12章和第13章,主题是围绕协同过滤推荐算法与社交网络的信任展开研究,将用户的评分信息和用户的社交网络信息融入传统的矩阵分解中以提高推荐质量。第五篇包括第14章,从实际应用的角度用Spark实现一个基于矩阵分解的推荐原型系统。

在本书的撰写过程中,已毕业的硕士研究生张朋飞、李骁、武文琪以及在读研究生谷振鹏、刘冉东、苗艳玲等对书稿内容和相关实验提供了大量的帮助,在此向他们表示衷心的感谢。本书的出版得到河南省高等学校重点科研项目(项目编号:15A520074)和河南理工大学博士基金的支持,在此一并表示感谢。

推荐系统所涉及的算法,尤其是协同过滤推荐算法是一个快速发展、多学科交叉的新颖研究方法,其理论及应用均有大量的问题尚待进一步深入研究。由于作者知识水平和资料获取方面的限制,书中不妥之处在所难免,敬请同行专家和读者批评指正。

作 者

2018年5月