基于Scrapy-Redis的分布式爬取当当网图书数据|胡学军;李嘉诚 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于Scrapy-Redis的分布式爬取当当网图书数据

文献摘要：

单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率.文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究,分析影响其性能的参数,将算法集成到Scrapy-Redis的Scheduler的去重模块中.系统使用一台主机做Master,两台从机做Slave,最终运行1小时后,抓取图书信息18,000余条.

文献关键词：

网络爬虫;Scrapy框架;Scrapy-Redis框架;布隆过滤器算法

中图分类号：

[1] 文化、科学、教育、体育（G） / 信息与知识传播（G2） / 图书馆学、图书馆事业（G25） / 读者工作（G252）

[2] 文化、科学、教育、体育（G） / 信息与知识传播（G2） / 图书馆学、图书馆事业（G25） / 图书馆学（G250）

[3] 电工技术（TM） / 输配电工程、电力网及电力系统（TM7） / 电力系统的调度、管理、通信（TM73）

作者姓名：

胡学军;李嘉诚

作者机构：

上海理工大学机械工程系,上海 200082

文献出处：

引用格式：

[1]胡学军;李嘉诚-.基于Scrapy-Redis的分布式爬取当当网图书数据)[J].软件工程,2022(10):8-11

A类：

分布式网络爬虫,布隆过滤器算法

B类：

Scrapy,Redis,爬取,当当网,单机,研究分布,架构模式,主从,书信,算法集成,Scheduler,一台,主机,Master,两台,Slave,抓取图,余条

AB值：

0.29653

相似文献

融合动态主题词库和改进Shark-Search算法的主题爬虫方法——以武器装备领域为例

丁晟春;刘凯;方振-南京理工大学经济管理学院南京210094

改进YOLOv4算法的安全帽检测

李帅;李丽宏;王素刚;田建艳;李济甫-太原理工大学电气与动力工程学院,山西太原 030024;山西省万立科技有限公司,山西太原 030006

布隆过滤器研究综述

华文镝;高原;吕萌;谢平-青海师范大学计算机学院,西宁810016;青海省物联网重点实验室,西宁810008;省部共建藏语智能信息处理及应用国家重点实验室,西宁810008;高原科学与可持续发展研究院,西宁810016

基于分布式集群高可用管理信息系统设计

邓秀辉;李民;方惠-昆明理工大学,昆明650500

融合词性位置的无监督老挝语实体关系抽取

马霄飞;周兰江;周蕾越-昆明理工大学信息与自动化学院,昆明650500;昆明理工大学津桥学院电子与信息工程学院,昆明650160

基于分布式计算的大学就业信息管理系统

邢琦-西安邮电大学西安 710061

基于双缓冲的分布式爬虫调度策略的设计与研究

卢照;师军;张耀午;王琦-运城学院数学与信息技术学院运城 044000;陕西师范大学计算机科学学院西安 710100

基于Python爬虫网站数据分析系统设计与实现

杨孟姣;杜棋东-湖南省石门县第一中学,湖南常德 415300;广州铁路职业技术学院

基于位标识的可擦写高效过滤器算法与实现

雷蒙;肖文超;高佳宁;廖雪花-四川师范大学计算机科学学院;四川师范大学物理与电子工程学院,四川成都610101

自定义目标检测数据集的收集与半自动标注

邓庆昌;程科-江苏科技大学计算机学院,江苏镇江212000

基于数据挖掘的Web学习资源数据流处理技术

杨柳青;王冲-玉林师范学院教育技术中心,广西玉林 537000;桂林电子科技大学商学院,广西桂林 541004

基于知识图谱的科技成果智能查询系统

徐欣;杜军平;薛哲-北京邮电大学智能通信软件与多媒体北京市重点实验室计算机学院,北京 100876

基于Mask R-CNN的马匹四肢别征提取方法研究与应用

迪力夏提·多力昆;张太红;冯向萍-新疆农业大学计算机与信息工程学院,新疆乌鲁木齐830052

基于Python爬虫的旅游网站数据分析与可视化

赵蔷-咸阳师范学院计算机学院,陕西咸阳712000

基于自然语言处理与智能语义识别的舆情监测预警模型研究

张君第-陕西铁路工程职业技术学院,陕西渭南714000

基于二值化网络的学习型布隆过滤器优化研究

杨斐;崔超远-中国科学院合肥物质科学研究院智能机械研究所,安徽合肥 230031;中国科学技术大学,安徽合肥230026

基于Scrapy的食品安全舆情数据爬取与分析

魏海昱;林伟鸿;贺超波-仲恺农业工程学院信息科学与技术学院,广州 510225

基于集成学习的有害垃圾自动识别方法研究

孟德尧;吴荣海;杨邓奇-大理大学数学与计算机学院,大理 671003;大理大学工程实训中心,大理 671003

基于时间序列的热门股票分析与推荐系统的设计与实现

陈磊;张晓涛-汕尾市公安局,汕尾 516600;佳都科技集团股份有限公司,广州 510000

基于网络爬虫技术的教学管理系统教师客户端的实现方法研究

鲁斌;陈礼念;王瑞超-五邑大学智能制造学部,江门 529020

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。