◼ 熟练掌握 Web 前端网页结构(Javascript、HTML、CSS)。
◼ 熟悉 scrapy 框架,flask 框架,requests,selenium等常用包、模块;
◼ 熟悉常见的划块,点选验证,等技术,熟悉爬虫的工作原理,了解常见的反爬手段;
◼ 熟悉整个爬虫的实现流程,有反爬经验,常见的 js 逆向反爬、字体加密反爬、MD5、base64 加密;
◼ 熟悉掌握 Fiddler 抓包工具,Appium自动化工具;
◼ 熟练掌握 lxml,jsonpath,正则,Beautiful Soup;
◼ 熟悉掌握关系型数据库(MySQL)以及非关系型数据库(mongodb);
◼ 有手机 APP 移动端抓取经验;
项目名称:1688 平台
开发时间:2022.09-2022.09
项目描述: 抓取 1688 平台电子产品厂家公司信息
技术要点:
1. 数据接口参数存在随机改变参数,为 js 动态加密参数;
2. 主要采用了,execjs,node.js,requests,jsonpath,json,time,re,openpyxl 模块;
3. 分析处理可变参数,发送请求
4. 得到数据文本转换 json 数据;
5. 抽取所需数据写入数据表;
项目名称: 抓取淘宝评论
开发时间:2022.06-2022.06
项目描述:笔记本电脑的产品评论
项目职责:采集数据 ,整合处理图文
技术要点:
1. 使用scrapy框架实现异步抓取数据;
2. 运用IP代理池,以防淘宝检测并限制IP访问;
3. 运用 jsonpath 抽取目标数据,结构化新的 json 数据
4. 抽取所需数据写入MySQL数据库
项目名称: TED视频字幕
开发时间:2022.09.01
项目描述:商业演讲字幕
项目职责:采集数据 ,整合处理内容
技术要点:
1. 使用selenium框架实现抓取数据;
2. 运用selenium动作链实现数据获取;
3. 运用 xpath抓取数据并用openpyxl将数据保存为xlsx文档
项目名称: 大众点评旅游景点评论抓取
开发时间:2022.010.08
项目描述:旅游景点评论抓取
项目职责:采集数据 ,整合处理内容
技术要点:
1. 使用scrapy框架实现抓取数据;
2. 运用IP代理池,以防检测并限制IP访问;
3. 替换大众点评评论中的加密加密文字
4. 并使用xpath进行抓取数据
项目名称: 大众点评旅游景点评论抓取 开发时间:2022.010.08 项目描述:旅游景点评论抓取 项目职责:采集数据 ,整合处理内容 技术要点: 1. 使用scrapy框架实现抓取数据; 2. 运用IP代理池,以防检测并限制IP访问; 3. 替
项目名称: 抓取淘宝评论 开发时间:2022.06-2022.06 项目描述:笔记本电脑的产品评论 项目职责:采集数据 ,整合处理图文 技术要点: 1. 使用scrapy框架实现异步抓取数据; 2. 运用IP代理池,以防淘宝检测并限制IP访问;