框架与库
Selenium:利用Selenium模拟真实用户操作,处理动态加载内容和JavaScript渲染的页面,确保数据的完整性和准确性。
Scrapy:运用Scrapy框架实现大规模网络爬虫的构建与部署,高效爬取和解析网页数据。
解析库:熟练掌握BeautifulSoup4(bs4)和XPath,用于从HTML和XML文档中快速提取所需信息。
网络请求库:运用requests和aiohttp进行HTTP/HTTPS请求的发送与接收,支持同步和异步请求,提高爬虫性能。
JavaScript处理
ExecJS:通过ExecJS在Python环境中执行JavaScript代码,处理需要JavaScript渲染的页面。
Node.js环境代码移植:具备将浏览器环境中的JavaScript代码移植到Node.js的能力,实现后端自动化和数据处理。
AST抽象语法树解混淆:运用抽象语法树(AST)分析技术,解析和还原混淆的JavaScript代码,以应对复杂的反爬虫机制。
加密与解密
对称加密与非对称加密:熟悉AES、RSA等加密算法,能够处理网站使用的加密数据,确保数据的安全传输和存储。
摘要算法:使用SHA、MD5等摘要算法验证数据的完整性和真实性。
逆向工程与Web技术
逆向Webpack:具备分析和逆向Webpack打包后的JavaScript代码的能力,以获取原始源代码和逻辑。
WebSocket:支持WebSocket协议的爬虫开发,实现实时数据的获取和传输。
Protobuf:熟悉Protocol Buffers(protobuf)数据序列化协议,能够解析和生成protobuf数据,以支持更高效的数据传输和存储。
熟练掌握python逆向,包括md5, RSA,及其他逆向工程
具备爬取大型网站数据的经验
具备各大网站的数据抓取及保存能力,包括海内外的购物网站,项目招标网站,以及相关的报道文章内容的抓取,可实现js数据的逆向抓取。
使用python语言对南京公交线路的信息进行抓取。期间调用了requests 库实现对数据的请求,在对其进行数据提取,最后利用xlrd, xlwt等库,实现对数据的本地保存。
使用python语言,以面向对象的方式实现对虎扑球员信息的提取。期间调用了requests库等其他所需的库,最终实现了数据的多表保存