FAILED
首站-论文投稿智能助手
典型文献
基于双缓冲的分布式爬虫调度策略的设计与研究
文献摘要:
互联网的高速发展使得大数据的应用越来越广泛,使得分布式爬虫处于愈来愈重要的地位.目前主流开源爬虫框架在网络通信开销上优化甚少,缺乏一个有效的方案来减少网络开销问题.论文利用对等式架构的爬行器既是任务的消费者又是任务的生产者,提出了任务尽量在本地执行的优化方向.基于双缓冲技术实现的大粒度任务动态负载均衡策略,能有效地降低通信频次,基于高速缓存原理的URL判重方案,以"空间换时间"的方式,有效地提升爬虫URL判重性能.实验结果表明,该策略具有良好的扩展性、鲁棒性,能使分布式系统的性能优势得到更为充分的发挥.
文献关键词:
分布式爬虫;动态负载均衡;Scrapy-Redis;双缓冲机制
作者姓名:
卢照;师军;张耀午;王琦
作者机构:
运城学院数学与信息技术学院 运城 044000;陕西师范大学计算机科学学院 西安 710100
引用格式:
[1]卢照;师军;张耀午;王琦-.基于双缓冲的分布式爬虫调度策略的设计与研究)[J].计算机与数字工程,2022(08):1686-1690
A类:
双缓冲机制
B类:
分布式爬虫,调度策略,设计与研究,愈来愈,开源,网络通信开销,甚少,网络开销,等式,爬行器,生产者,优化方向,大粒度,动态负载均衡,均衡策略,高速缓存,URL,空间换时间,略具,扩展性,分布式系统,性能优势,Scrapy,Redis
AB值:
0.35661
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。