首站-论文投稿智能助手
典型文献
通用的行业网站资讯集成平台的设计与实现
文献摘要:
为集成行业网站资讯并作排名参考、舆情监控、热点提取等场景应用,组织研发了一种通用的行业网站资讯集成平台.该集成平台需要研发行业网站爬虫系统、行业网站数据处理系统、行业网站数据展示系统这3个软件系统.在分析清楚这种通用的行业网站资讯集成平台的功能需求的基础上,给出了该平台的总体技术架构和3个软件系统的设计.给出了增量式爬取网页、二分法提取资讯类网页、预测网页标题等关键技术实现的原理.经研发实现,该集成平台已应用在全国物流行业与湖南统战系统形成行业网站资讯集成平台.全国物流行业网站资讯集成平台已集成10个网站,爬取到313199个网页;湖南统战系统网站资讯集成平台已集成26个网站,爬取到64216个网页.
文献关键词:
行业网站;Scrapy爬虫;集成平台;网页分类;提取标题
作者姓名:
邓子云
作者机构:
长沙商贸旅游职业技术学院,湖南 长沙 410116
引用格式:
[1]邓子云-.通用的行业网站资讯集成平台的设计与实现)[J].工业技术与职业教育,2022(02):10-14
A类:
增量式爬取,提取标题
B类:
行业网站,资讯,集成平台,成行,舆情监控,场景应用,该集,发行业,爬虫,数据处理系统,数据展示,展示系统,软件系统,功能需求,技术架构,二分法,测网,物流行业,统战,系统形,取到,Scrapy,网页分类
AB值:
0.231638
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。