推荐序
随着移动互联网的不断发展和5G的普及,信息的视频化呈现出了前所未有的发展速度,不仅是抖音、快手、小红书等,就连很多工具类App都把视频作为一种基础的信息交换格式。而推荐系统作为信息过滤的重要产品和技术手段,近十年来发展迅速,特别是深度学习与推荐系统的结合,不论是工业界还是学术界都涌现出非常多的新算法和实践。初学者接触推荐系统很容易被复杂的算法带偏,甚至以为其系统中最重要的就是模型表达能力的强弱(特征容量),而在实际的工业级推荐系统中涉及大量的在/离线系统架构、数据信号与机器学习系统的反馈链路,以及与人的经验知识的结合方式。
真实的线上推荐系统不仅涉及召回、粗排、精排、重排(在本书中,“重排”等同于“重排序”)这些阶段,而且涉及内容理解、用户画像、AB实验平台、Session上下文管理、创作者生态扶持、流量运营操作平台等,这些子系统在同类书中是比较少涉及的,而模型技术的演进通常是笔墨最重的部分。以内容理解为例,给每一个内容打上标签,或者通过无监督学习的方式得到一个向量表达,这两种不同的形态实际上都有用处,标签在用户冷启动方面是能够发挥比较大的作用的,而向量化也可以作用于用户和内容的冷启动方面。
AB实验平台对于推荐算法工程师做策略迭代至关重要,如何设计一个好的实验及解读实验结果是否有显著性,这对推荐算法工程师而言是一件比较困难的事情,实验分析背后是需要统计学理论基础的,如何看置信度、P-Value等都是需要掌握的。
本书以一个多年在工业界从事推荐系统研发工作的算法工程师的视角详细介绍了推荐体系中的各个重要组成部分,在标签体系、用户画像、多模态内容理解的特点、优化效果的实践技巧等方面,以及其他介绍推荐系统的图书中容易略过的地方,都做了很细致的阐述,并结合具体的实战场景做了清晰的讲解。该如何评估推荐系统的好坏是一个具有挑战性的难题,分为很多流派,无论是只看在线消费指标,还是构建一个复杂的多层次指标矩阵,其取舍都是很困难的,这就需要与你所做的业务场景结合起来,跟产品或运营团队紧密配合。
标签抽取曾经在推荐算法的迭代历史上发挥过重要的作用,以其白盒化、容易控制、与运营领域知识好结合等特点被广泛采用。而随着深度学习技术的应用,单从指标优化上来看,标签似乎是一个过时的技术,但推荐冷启动仍然是每个工业级推荐系统都跨不过去的难点。基于用户标签的冷启动算法与E&E(探索与利用)策略或者与强化学习结合起来,可以在冷启动这个经典难题上取得非常不错的效果。
本书风格比较务实,非常适合希望学习推荐系统的工程师群体入门学习,也比较适合从事推荐系统研究工作的学者及学生了解工业级推荐系统的全貌,期待有更多优秀的技术人员能够推开智能化推荐系统的大门。
风笛,小红书技术VP