1.3 面临的主要挑战
个性化推荐技术的主要研究对象丰富多变,概括而言包括两大部分:一是广泛存在于各种互联网应用中的被推荐物品,包括商品、视频、音乐、电影、新闻、金融产品、工作任务等;二是购买、消费和操作这些物品的网络用户。用户与物品之间交互方式的多样性、行为记录的丰富性、兴趣偏好的动态性为个性化推荐技术的研究及其解释带来了诸多挑战,如图1.3所示,这主要包括如下几个方面。
图1.3 本研究面临的主要挑战及其对应的解决方案
第一,庞大的数据规模。在典型的互联网应用中往往存在着数量极为庞大的用户和物品,例如据全球最大的用户评论网站Yelp(16)统计报告指出,截至2016年初,其日活跃用户达1.35亿,并且拥有9500万用户评论历史记录;中国主要的电子商务网站淘宝网和京东商城的活跃用户同样数以亿计;而百度、谷歌、Facebook等搜索和社交网站的活跃用户更是达到数以十亿计。庞大的数据规模对用户偏好建模和个性化推荐算法的可行性和实时性提出了较高的要求。本书提出了矩阵的迭代双边块对角矩阵(bordered block diagonal form,BBDF),并证明了该结构与用户-物品二部图社区发现的等价性,从而为用户-物品行为数据的内在结构提供了解释框架。我们进一步证明了双边块对角矩阵在分解问题上的数学性质,并基于其性质提出了局部化矩阵分解(localized matrix factorization,LMF)框架,使得矩阵分解在数据层面上的并行化和局部化成为可能;不仅如此,我们还证明了该框架与许多常见矩阵分解算法的兼容性,从而为矩阵分解问题提供了一个统一的并行化解决方案。
第二,用户行为数据极其稀疏。虽然网络应用中往往存在数以千万乃至亿计的用户和物品,然而单个用户却往往只与其中极少的一部分物品存在历史行为记录,这导致多数互联网用户行为日志存在严重的数据稀疏性。同样在Yelp中,有49%以上的用户仅仅只有一条历史评论,用户-物品行为矩阵的平均密度仅有0.043%,稀疏度达到了99.957%。用户历史记录的稀疏性为用户行为的建模带来了挑战,使得我们不得不从有限的历史行为中估计用户的兴趣和偏好,并给出符合其个性化信息需求的推荐。在本书中,利用矩阵的双边块对角结构来剔除其中不包含信息量的部分,在增强矩阵密度的同时提高用户偏好的预测精度。
第三,数据异质性。由于用户行为方式和种类的多样性,网络应用所积累的用户行为历史数据往往具有明显的异质性,从而为异质信息的融合与协同处理带来了挑战。例如在电子商务等诸多网站的评论系统中,用户一方面可以对购买物品给出数值化的评分,另一方面可以同时以文本的方式给出评论,从而更为具体地表达自己的态度和偏好。长期以来,基于协同过滤的个性化推荐算法,尤其是基于矩阵分解的隐变量方法的相关研究只关注数值化评分的使用,而忽视了文本评论中所包含的丰富的用户个性化信息。这一方面是由于个性化的文本评论的异质性带来处理难度,另一方面也由于文本处理技术的瓶颈而难以发挥其应有的作用。近年来,随着短语级情感分析技术的不断发展和成熟,从用户评论文本中抽取结构化信息成为可能,从而为数值和文本异质信息的处理带来新的思路。本书利用短语级情感分析技术从用户评论中进行产品属性和用户情感的抽取,并基于此提出显式变量分解模型(explicit factor model,EFM),一方面同时处理用户数值评分和文本评论的异质信息,另一方面对推荐模型和结果给出属性级的个性化推荐理由与解释。
第四,用户行为的非理性。用户历史行为数据虽然均为用户在实际环境下的真实行为记录,但并非全部都是用户在理性状态下的最优决策。经济学研究指出,用户在实际决策中具有一定的非理性,这主要是由于人并非完全能够做到对目标对象的价值和效用进行精确估计并做出严格最优的决策。例如在购物网站中,用户常常由于时空和搜索量的限制不能找到最优的商品而选择了次优的替代品;用户往往也无法精确计算出最优的购买数量而选择了一个估计的数量。非理性行为的存在为用户行为建模和模型估计带来了一定的偏差和挑战。本书引入经济学相关理论,对用户行为的非理性因素进行考虑和建模,从而消除由于用户非理性行为而带来的估计偏差。
第五,用户偏好的动态性。用户的偏好并非一成不变,而是随着时间的推移发生兴趣的增强、减弱,或者转变。例如在化妆品购物领域,用户在夏季更加关注防晒相关的产品,而在秋、冬季节则更为关注保湿相关的产品,不断变化的行为偏好为用户兴趣的建模提出了动态化和实时性的要求。本书采用经济学的时间序列分析理论对用户动态变化的兴趣进行建模,同时为了解决大数据环境下时间序列模型参数过多带来的计算可行性问题,提出了基于傅里叶级数辅助的时间序列分析模型,为大数据环境下用户偏好的动态跟踪和预测提供了解决方案。