典型文献
融合动态主题词库和改进Shark-Search算法的主题爬虫方法——以武器装备领域为例
文献摘要:
[目的]解决传统主题爬虫容易出现爬取率低和主题相关度不足的问题.[方法]基于Shark-Search算法,提出两步式动态扩充主题词表的主题爬虫算法Two-step Dynamic Shark-Search(TDSS),将传统算法中主题相关性计算拆分为链接主题相关性和页面主题相关性两个单独步骤.通过相关资料和工具建立并拓展的主题词表,并在爬虫运行过程中从主题相关页面提取新的关键词补充到主题词表中,提升主题判断的效果.[结果]在相同的实验环境下,TDSS主题爬虫方法比对比算法的爬准率最多高14.2%,采集效率最多高35%.[局限]动态主题词扩展算法需进一步完善,主题词表过度扩充会降低爬准率.[结论]基于TDSS的主题爬虫能够有效提高获取主题信息的准确率,爬取更多与主题相关的网页.
文献关键词:
主题爬虫;Shark-Search;主题相关度;主题词表
中图分类号:
作者姓名:
丁晟春;刘凯;方振
作者机构:
南京理工大学经济管理学院 南京210094
文献出处:
引用格式:
[1]丁晟春;刘凯;方振-.融合动态主题词库和改进Shark-Search算法的主题爬虫方法——以武器装备领域为例)[J].数据分析与知识发现,2022(08):52-60
A类:
B类:
词库,Shark,Search,主题爬虫,武器装备领域,传统主题,爬取,主题相关度,两步式,主题词表,Two,step,Dynamic,TDSS,传统算法,拆分,页面,独步,充到,实验环境,方法比对,对比算法,采集效率,网页
AB值:
0.298179
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。