基于Scrapy的网站增量式爬取功能的研制与应用|邓子云 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于Scrapy的网站增量式爬取功能的研制与应用

文献摘要：

为解决基于Scrapy爬取网站的常规做法存在的总是全站爬取、数据库要多次访问的问题,研发网站增量式爬取功能.要实现网站增量式爬取,应在Scrapy框架中置入下载中间件,且应在爬虫启动时加载种子页列表、已访问过的网址及其Hash列表、控制网页列表.网站增量式爬取还应控制爬取的规模.简单的控制策略是根据种子页控制,但更新感知能力有限.因此,提出两级网页控制增量爬取的策略并对实现原理做了详细说明.

文献关键词：

Scrapy爬虫;增量式爬取;下载中间件;爬取规模的控制

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机软件（TP31） / 程序设计、软件工程（TP311）

[3] 医药、卫生（R） / 药学（R9） / 药事组织（R95） / 药学经济学（R956）

作者姓名：

邓子云

作者机构：

长沙商贸旅游职业技术学院,湖南长沙,410116

文献出处：

湖南工业职业技术学院学报

引用格式：

[1]邓子云-.基于Scrapy的网站增量式爬取功能的研制与应用)[J].湖南工业职业技术学院学报,2022(06):25-29

A类：

增量式爬取,下载中间件,爬取规模的控制

B类：

Scrapy,研制与应用,全站,次访问,发网,中置,置入,爬虫,启动时,列表,网址,Hash,控制网,网页,新感知,感知能力,两级,实现原理,细说

AB值：

0.257739

相似文献

"三全育人"视域下高校思想政治教育创新策略

王海英-江苏航运职业技术学院,江苏南通 226000

普及化阶段高等教育趋向公平的现实困境与策略研究

田梦谣-长江大学教育与体育学院,湖北荆州434000

混合式英美文学教学评价机制与外延设计

曹玉洁-陇东学院外国语学院,甘肃庆阳745000;广东外语外贸大学外国文学与文化研究中心,广州510420

"三全育人"视域下应用型高校德育评价改革探索

郭丽娟;李柳维娜-上海工程技术大学,上海201620

新时代增值评价的价值意蕴与实现路径

刘淑洁-天津师范大学教育学部,天津300387

《网站建设与管理》课程教学改革研究

付立娟-天津市第一商业学校,天津 300180

党的二十大精神融入课程思政的思考——以《图形图像处理》为例

韩慧-天津国土资源和房屋职业学院,天津 300270

基于语料库的当代中国职业教育公共话语与形象建构研究

赵雪倩-天津中德应用技术大学,天津 300350

新媒体时代美术编辑工作的创新性研究

付锬锬-大象出版社有限公司

大学生显性自恋人格与社交网站自我呈现策略的关系研究

李倩文-沈阳师范大学教育科学学院,辽宁沈阳 110034

校企共教中职网页设计与制作课程教学初探

季琴-江苏省洪泽中等专业学校,江苏淮安223100

广东省高职院校虚拟仿真实训室建设现状分析及思考

秦铭谦;曾青松;刘炜-广州番禺职业技术学院,广东广州511400

浅析硕士研究生就业心理问题与个性化干预对策

阿力普·卡衣木;艾热提·卡衣木-新疆大学政治与公共管理学院,新疆乌鲁木齐830046;伊犁师范大学生物与地理科学学院,新疆伊犁835000

论新媒体手段在中职班级管理中的运用

施海燕;潘蓝-广西轻工技师学院，广西南宁530031

黑龙江省高等教育加快和扩大对外开放策略研究

齐黎丽-黑河学院经济管理学院，黑龙江黑河 164300

基于网络爬虫的跨境电商人才就业需求分析——以河北省为例

徐琳;王进;路瑶;王丹丹;于莉莉-廊坊职业技术学院

基于游客认同的文旅IP选择与实证研究——以新疆阿克苏地区为例

张雪丽-浙江旅游职业学院

新形势下国际学生择校需求与招生策略研究

梁蓉华-大连理工大学国际教育学院

基于认知文体分析框架的《葬花吟》西语重译批评

罗莹-常州大学外国语学院,江苏常州 213000

网络文学作品中作者主体性的消解

张婷婷-山东大学翻译学院,山东威海 264209

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。