典型文献
基于Pyspider的网络爬虫架构的分析与优化
文献摘要:
为了从互联网海量数据中获取数据资源,实现对前沿技术动态的监控,使用Pyspider框架定时爬取大批网站的信息,并通过python脚本定时将爬取的数据导入到业务系统中.最初,系统采用了Pyspider官方推荐的分布式架构,在使用中发现存在任务队列容易堵塞、受网络质量影响大、获得的数据不利于统计和使用等问题.针对上述问题和业务需要,对Pyspider框架进行优化,将分布式架构转变为集群式架构;剥离与网页内容获取和保存不相关的任务,在Pyspider框架外独立完成.经测试,改进后的架构工作效率和稳定性大幅提升,达到了预期的效果.
文献关键词:
Pyspider;网络爬虫;分布式;集群
中图分类号:
作者姓名:
李鲲程;费军旗;范春梅
作者机构:
中国信息通信研究院;北京邮电大学
文献出处:
引用格式:
[1]李鲲程;费军旗;范春梅-.基于Pyspider的网络爬虫架构的分析与优化)[J].通信管理与技术,2022(06):9-12
A类:
Pyspider
B类:
网络爬虫,网海,海量数据,获取数据,数据资源,前沿技术,爬取,python,脚本,数据导入,导入到,业务系统,分布式架构,网络质量,质量影响,集群式,网页内容,不相关
AB值:
0.341159
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。