典型文献
基于Scrapy的网站增量式爬取功能的研制与应用
文献摘要:
为解决基于Scrapy爬取网站的常规做法存在的总是全站爬取、数据库要多次访问的问题,研发网站增量式爬取功能.要实现网站增量式爬取,应在Scrapy框架中置入下载中间件,且应在爬虫启动时加载种子页列表、已访问过的网址及其Hash列表、控制网页列表.网站增量式爬取还应控制爬取的规模.简单的控制策略是根据种子页控制,但更新感知能力有限.因此,提出两级网页控制增量爬取的策略并对实现原理做了详细说明.
文献关键词:
Scrapy爬虫;增量式爬取;下载中间件;爬取规模的控制
中图分类号:
作者姓名:
邓子云
作者机构:
长沙商贸旅游职业技术学院,湖南 长沙,410116
文献出处:
引用格式:
[1]邓子云-.基于Scrapy的网站增量式爬取功能的研制与应用)[J].湖南工业职业技术学院学报,2022(06):25-29
A类:
增量式爬取,下载中间件,爬取规模的控制
B类:
Scrapy,研制与应用,全站,次访问,发网,中置,置入,爬虫,启动时,列表,网址,Hash,控制网,网页,新感知,感知能力,两级,实现原理,细说
AB值:
0.257739
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。