
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
3.2 YouTube 垃圾评论(文本分类)
以文字分类为例,本书使用了来自YouTube 网站上5 个不同视频的1956 条评论。Alberto、Lochter 和Almeida[13] 在有关垃圾评论分类的文章中使用此数据集免费提供了这些数据。
这5 个视频的评论是从2015 年上半年YouTube API 观看次数最多的10 个视频中选出并收集的。5 个都是音乐视频,其中之一是韩国艺术家Psy 创作的Gangnam Style。其他艺术家是Katy Perry、LMFAO、Eminem 和Shakira。
这些评论被手动标记为垃圾评论或正常评论。垃圾评论的编码为“1”,正常评论的编码为“0”,如表3-1 所示。

也可以转到YouTube 并查看评论部分。但是,千万别舍本逐末,最终观看了猴子从海滩上的游客那里偷喝鸡尾酒的视频。自2015 年以来,谷歌垃圾评论检测器已经发生了很大变化。
如果想使用该数据,可以在本书的GitHub 存储库中找到RData 文件以及R脚本。