乐乎平台中文作品标签识别和热度统计
北京工业大学2019年《应用安全课程设计》项目
⇨GitHub
本项目使用了如下开源软件:
项目简介
LOFTER平台由于作品众多、作者打tag的习惯不同等原因,许多作品缺乏妥善完整的标签分类,导致平台在热度统计上的不准确。为了得出更加全面准确的LOFTER的热度榜统计,我们针对一个主题的作品进行研究,通过python爬虫创建了数据集并设计了该作品专属的语料库及词典,通过智能的关键词识别算法为作品添加标签,提供了一个更加全面的LOFTER热度榜统计系统,避免了因个人打标签习惯差异导致的热度统计不准确。
我们以当下热门手游王者荣耀作为主题标签,采用python爬虫提取了王者荣耀tag下的两类数据集(共计6000余个lof),经过数据集去重、json化等处理后,利用关键词提取技术为数据集中的作品提取出角色名关键词,结合词典为每个作品添加合适的角色标签,依据角色标签的数量、热度对王者荣耀中的各角色进行热度统计,给出手游王者荣耀的角色热度排行榜,并参考官方活动对我们的统计结果加以验证,最终实现了一套完整的乐乎平台热度统计系统。
视频展示:
项目使用
需要安装依赖:pip3 install bs4 requests pyhanlp
1. 爬取数据集:
cd crawler
python3 ./crawler
2. 排行榜:
直接运行CPL.jar
3. 生成语料库:
cd corpus/tools/
python3 ./main.py
语料库
语料库为2019年7月2日抓取的以下标签内容:
王者荣耀,信白,云亮,铠约,双兰,策约,邦良,约策,百里骨科,狄芳,瑜乔,铠宝,备香,策乔,药鱼,邦信,信云,白亮,白信,明弈,白狄,亮瑜,白鹊
容量大约为650MB(TXT)/420MB(JSON)