Characters-Popularity-Lofter

乐乎平台中文作品标签识别和热度统计

北京工业大学2019年《应用安全课程设计》项目
⇨GitHub

本项目使用了如下开源软件:

下载最新版

项目简介

    LOFTER平台由于作品众多、作者打tag的习惯不同等原因,许多作品缺乏妥善完整的标签分类,导致平台在热度统计上的不准确。为了得出更加全面准确的LOFTER的热度榜统计,我们针对一个主题的作品进行研究,通过python爬虫创建了数据集并设计了该作品专属的语料库及词典,通过智能的关键词识别算法为作品添加标签,提供了一个更加全面的LOFTER热度榜统计系统,避免了因个人打标签习惯差异导致的热度统计不准确。

    我们以当下热门手游王者荣耀作为主题标签,采用python爬虫提取了王者荣耀tag下的两类数据集(共计6000余个lof),经过数据集去重、json化等处理后,利用关键词提取技术为数据集中的作品提取出角色名关键词,结合词典为每个作品添加合适的角色标签,依据角色标签的数量、热度对王者荣耀中的各角色进行热度统计,给出手游王者荣耀的角色热度排行榜,并参考官方活动对我们的统计结果加以验证,最终实现了一套完整的乐乎平台热度统计系统。

视频展示:

项目使用

需要安装依赖:pip3 install bs4 requests pyhanlp


1. 爬取数据集:

         cd crawler
         python3 ./crawler

2. 排行榜:

         直接运行CPL.jar

3. 生成语料库:

         cd corpus/tools/
         python3 ./main.py

语料库

⇨LINK

语料库为2019年7月2日抓取的以下标签内容:

王者荣耀,信白,云亮,铠约,双兰,策约,邦良,约策,百里骨科,狄芳,瑜乔,铠宝,备香,策乔,药鱼,邦信,信云,白亮,白信,明弈,白狄,亮瑜,白鹊

容量大约为650MB(TXT)/420MB(JSON)