首站-论文投稿智能助手
典型文献
Python环境下利用Selenium与JavaScript逆向技术爬虫研究
文献摘要:
针对使用调试检测、数据加密等技术的网站,解析工具Beautiful Soup难以对网页进行解析爬取数据.本研究基于Python环境,结合JavaScript逆向技术、Beautiful Soup网页解析等网络爬虫技术,利用中间人攻击工具Mitmproxy(man-in-the-middle attack proxy)在本地指定设备端口开启本地代理,拦截并修改网页响应.同时,运用Web自动化工具Selenium来启动浏览器,设置使用代理服务器,连接到本地Mitmproxy代理,访问被修改的响应网页进行网页调试和解析,并对加密数据进行还原,解决网络爬虫中调试检测和数据加密难题,从而爬取数据.
文献关键词:
网络爬虫;JavaScript逆向技术;网络代理;Selenium
作者姓名:
时春波;李卫东;秦丹阳;张海啸;吴峥嵘
作者机构:
河南工业大学信息科学与工程学院,河南 郑州 450001
文献出处:
引用格式:
[1]时春波;李卫东;秦丹阳;张海啸;吴峥嵘-.Python环境下利用Selenium与JavaScript逆向技术爬虫研究)[J].河南科技,2022(10):20-23
A类:
Mitmproxy
B类:
Python,下利,Selenium,JavaScript,逆向技术,数据加密,Beautiful,Soup,网页,爬取,网络爬虫技术,中间人攻击,man,middle,attack,端口,拦截,自动化工具,浏览器,代理服务器,接到,网络代理
AB值:
0.333956
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。