构建企业级推荐系统:算法、工程实现与案例分析
上QQ阅读APP看书,第一时间看更新

3.5.1 内容来源的获取

对于基于内容的推荐来说,有完整的、高质量的内容信息是构建精准的推荐算法的基础,那么我们有哪些方法可以获取内容来源呢?下面这些策略是主要获取内容(包括标的物内容和用户相关内容)来源的手段。

1.标的物“自身携带”的信息

在上架标的物时,第三方会准备相关的内容信息,如天猫上的商品在上架时会补充很多必要的信息。对于视频来说,各类metadata信息也是视频入库时需要填充的信息。我们要做的是增加对新标的物入库的监控和审核,及时发现信息不全的情况并做适当补全处理。

2.通过爬虫获取标的物相关信息

通过爬虫爬取的信息可以作为标的物信息的补充,特别是标的物自身携带的信息不全时。有了更完整的信息就可以获得更好的特征表示。

3.通过人工标注数据

往往人工标注的数据价值密度更高,通过人工精准的标注可以大大提升算法推荐的精准度。但是人工标注成本太大。

4.通过运营活动或者产品交互让用户填写相关内容

通过抽奖活动让用户填写家庭组成、兴趣偏好等信息,在用户开始注册时让用户填写兴趣偏好特征,这些都是获取内容的手段。

5.通过收集用户行为直接获得或者预测推断出的内容

基于地理位置服务(LBS)类APP,通过请求用户GPS位置知道用户的运动轨迹;电商类APP通过用户购物时填写的收货地址,获取用户地址信息。支付类APP通过用户绑定的身份证和银行卡等获得相应的用户基础信息;还可以通过用户操作行为预测出用户的兴趣偏好。

6.通过与第三方合作或关联新老产品矩阵补充信息

目前中国有大数据交易市场,通过正规的数据交易或者与其他公司合作,在不侵犯用户隐私的情况下,通过交换数据可以有效填补自己产品上缺失的数据。

如果公司有多个产品,新产品可以借助老产品的巨大用户基数,将新产品的用户与老产品用户关联起来(通过id-mapping或者账号打通),这样老产品上丰富的用户行为信息就可以赋能新产品。