
1.7 推荐系统现存问题
矩阵分解应用在推荐系统中目前存在四类问题,即冷启动问题、数据稀疏性问题、可扩展性问题和易受攻击性问题。冷启动主要是为了解决新用户和新项目的推荐问题,易受攻击主要是为了缓解用户的恶意评分,从而提升相关用户的知名度或者提升相关项目被推荐的次数。
1.7.1 冷启动
在推荐系统中,冷启动问题主要表现在以下几方面:当新用户加入系统时,没有浏览或评价过任何产品,没有用户的行为数据,所以也就无法根据用户的历史行为预测其兴趣,从而无法为新用户提供推荐服务;当系统加入新项目时,没有用户对其评价过,也不能被推荐;在一个新开发的个性化推荐系统中,如何在系统一发布就可以让用户体验到个性化推荐服务。
Bedi等人利用Facebook社交网络上用户之间的互动,试图处理冷启动问题。Facebook是一个很受欢迎的社交网站,朋友或熟人的选择往往会影响用户的意见或选择,可以利用这个思想来为用户提供推荐;提出一个IBSP算法,利用社会交往因子克服冷启动问题;使用Java开发的一个图书原型系统,用Facebook的API图形从用户的社交图中提取信息。于洪等人利用用户注册信息(年龄、性别、职业、民族、居住地等)和项目内容信息(项目的详细描述)分别进行建模,提供推荐服务。Le等人提出一种新的相似度度量方法——NHSM来解决用户冷启动问题。
1.7.2 数据稀疏性
在传统推荐算法的研究过程中,往往具有海量的用户和项目信息。也就是说,用户和项目的潜在因子矩阵是高维稀疏的,由此导致任意两个向量之间近似正交,计算得到的相似度往往为零,传统的基于相似度计算的模型将得不到理想的结果。因此,评价数据集的稀疏度显得十分必要,实际应用中往往采用用户项目评分矩阵中未评分数据量占评分总量的比例作为稀疏度的衡量指标,稀疏度越大,传统算法的精度越低,也就越难处理。
1.7.3 可扩展性
在大数据环境下,由于用户量和数据量巨大,传统的矩阵分解算法响应缓慢,同时存储成本较高,这就限制了传统的矩阵分解算法在实际中的应用。有鉴于此,改进的算法复杂度要越低越好,同时通过分布式文件系统(Hadoop Distributed File System, HDFS)来存储数据,考虑计算效率,这时可将矩阵分解算法进行并行化操作,以此来提高算法对海量数据的处理能力。
1.7.4 用户兴趣漂移
由于用户的兴趣爱好瞬息变化,存在用户兴趣漂移问题,给推荐系统带来极大的挑战,影响推荐的实时性。引起用户兴趣漂移的主要原因:由于年龄增长或转换生活状态,用户自身的兴趣和关注点会有不同;用户兴趣受新闻事件和项目流行度的影响;用户对项目的兴趣会受到季节效应和节日的影响。例如,当用户在网上看电影时,今天因为新电影的上映或其他原因喜欢某一主题的电影,明天又会因为其他原因关注另外一种主题的电影,又或是因为有其他人的加入而观看别人喜爱的类型电影,用户的兴趣随时间、节日和人物变化而变化。
由于上述问题以及各方面的原因,都会导致推荐质量下降。所以算法改进的最终目的是向用户准确推荐项目,所推荐的结果使得用户满意。