首站-论文投稿智能助手
典型文献
基于Scrapy-Redis的分布式爬取当当网图书数据
文献摘要:
单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率.文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究,分析影响其性能的参数,将算法集成到Scrapy-Redis的Scheduler的去重模块中.系统使用一台主机做Master,两台从机做Slave,最终运行1小时后,抓取图书信息18,000余条.
文献关键词:
网络爬虫;Scrapy框架;Scrapy-Redis框架;布隆过滤器算法
作者姓名:
胡学军;李嘉诚
作者机构:
上海理工大学机械工程系,上海 200082
文献出处:
引用格式:
[1]胡学军;李嘉诚-.基于Scrapy-Redis的分布式爬取当当网图书数据)[J].软件工程,2022(10):8-11
A类:
分布式网络爬虫,布隆过滤器算法
B类:
Scrapy,Redis,爬取,当当网,单机,研究分布,架构模式,主从,书信,算法集成,Scheduler,一台,主机,Master,两台,Slave,抓取图,余条
AB值:
0.29653
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。