上QQ阅读APP看书,第一时间看更新
5.4.1 计算两个视频的相似度(关联度)
该算法利用的是关联规则的思路,在一定时间内(比如24小时内)统计被用户同时播放过的视频对(vi,vj),将播放次数计为cij,那么候选视频vj与vi的相似度可以表示如下:
其中f(vi,vj)是一个归一化常数,会综合考虑种子视频vi与候选视频vj的“全局流行度”,如果我们分别记ci、cj为视频vi、vj在一段时间内总的播放次数。那么可以定义
f(vi,vj)=ci×cj
该归一化函数是非常直观简单的,当然,用其他归一化函数也是可以的。如果用该归一化函数,对所有候选视频vj来说,ci是一样的,所以可以忽略,其实我们是用候选视频的“全局流行度”cj来归一化。cj在分母中,这说明cj越大的视频,与种子视频vi的相似度会越小,该归一化方法更加偏向于偏冷门的候选视频。
上面只是一个非常简单的描述和计算公式,我们也可以将视频的metadata、观看时间等信息整合进来计算相似度。另外,还需要处理“脏”的播放行为数据。