熟练掌握urllib、requests、selenium等爬虫模块。
熟悉微信小程序数据抓取。
熟悉 re、xpath、selector 等网页数据提取手段。
熟悉Git版本管理工具。
熟悉 scrapy 爬虫框架。
熟悉fiddler、wireshark等抓包工具。
熟悉浏览器自动化工具的使用。
熟练使用多线程、多进程编程。
能够解决常规 js 逆向加密。
构建过 cookie 池,构建过代理 ip 池。
能够处理常规图片滑块,数字、文字验证码等反爬手段。
了解 MySQL、MongoDB、redis 等数据库。
了解 Linux 系统及其命令操作。
当当网、京东图书网数据抓取
selenium,redis,ajax,html
项目描述:项目采用 Selenium 与 Chrome 模拟成浏览器技术进行爬取,主要负责抓取商品
的名称、图片、价格、ISBN 以及
在售卖家的同 ISBN 商品的价格、店铺、库存。
● 考虑到电商页面会有较多的异步或者数据放在 js、jquery 中,所以用 Selenium 与
Chrome 模拟成浏览器,同时防止反
爬技术,整页爬取动态的 HTML;
● 导入 webdriver 和 time 模块,使整页加载完成待爬取动态的 HTML;
● 使用 xpath\re 对数据进行抽取与清洗;
● 把整理以后的数据来保存到 MySQL 数据库中。
某信用信息网站的信息抓取
js,逆向,scrapy
成都
项目描述:为了完善公司软件的信息和信息准确性,需要去该网站抓取数据。该网站含有jsl加
密,需要绕过加密获取数据。
1.分析网站请求逻辑;
2.分析数据接口必备参数;
3.分析参数来源(加密逻辑,逆向)nodejs测试;
4.还原加密逻辑,写接口模拟参数生成进行请求测试;
5.编写爬虫脚本。
6.测试有效期,编写cookie池。
某一站式企业信息查询服务网站的信息抓取 成都
逆向,js
项目描述:获取企业相关信息,对比竞品数据,提高数据准确性,最终目的:实现企业画像。
该网站含有cookie校验、滑块校验。滑块会在访问频率较高时出现。
1.分析请求方式、载荷、请求头等信息,分析得出请求的必需参数。
2.cookie校验中,有两个键服务器会校验。其中一个键动态变化,一小时变化一次。
3.使用fiddler、F12等工具,通过断点技巧、追栈等方式得到加密参数的生成逻辑。
4.尝试分析逻辑,尽可能得使用python还原。
5.使用逆向出来的参数模拟测试。
6.滑块使用图鉴接口绕过。
采集某网站数据,每次翻页或者进入详情页都会出现验证码,采集数据需要绕过该验证码。分析源码调试找出验证码出现到验证结束的整个逻辑,并将相关代码进行提取,在本地测试模拟,最后成功绕过。
染过某盾的所有加密参数,拿到正确数据。一共三个请求,第一个d请求检测当前客户端运行环境,无异常返回指纹,具有时效性。第二个get请求拿到imgcode,第三个携带一些加密参数以及轨迹信息给到服务器进行校验。
采集某网站的信息需要绕过cookie加密参数,通过js逆向将加密参数的生成逻辑还原,并模拟请求发送给服务器,服务器校验通过。