1、熟练使用Python编程语言;
2、熟悉常用的Python爬虫框架,如Scrapy、Requests、Selenium等;
3、熟悉常见的反爬虫策略,如IP封禁、请求频率限制、登录限制、验证码;
4、熟悉MySQL、MongoDB、Redis等数据存储方式;
5、拥有一定的反爬经验,如请求头伪装,代理IP使用,Cookie模登录;
6、了解js逆向,有处理逆向的经验;
7、了解fiddler、mitmproxy等抓包工具进行app信息提取;
8、了解Linux操作系统及常用操作指令;
项目名称:智能电商比价网
项目描述:本项目是收集各个电商平台的商品信息,能智能给用户推荐用户经常购买的商品的相似商品,让用户可以有更多的商品选择,点击一键比价就可以清楚知道同样的商品,各个电商平台的价格,可以对商品价格进行比较。该平台的核心功能包括:拥有更多的商品种类、拥有一键比价的功能、拥有智能推荐的功能;
个人职责:
1、负责开发高效的爬虫程序,从唯品会、1688、京东爬取商品信息;
2、分析网站结构,编写爬虫代码;
3、处理异常、解决网站的反爬;
4、将处理好的数据存入redis数据库;
5、对抓取到的数据进行清洗、去重、格式化;
6、使用js逆向处理加密的数据;
7、将处理好的数据存入mysql数据库中;
项目名称:热门视频推荐平台
项目描述:
本项目是收集各个短视平台的视频,可以根据用户经常观看的视频的类型,智能给用户推送常看视频类型相关的视频,不仅让用户有良好的观看体验,还能有更多的视频选择;
个人职责:
1、分析抖音、快手网、小红书网站的组成结构,使用合理的爬虫技术;
2、寻找接口,编写爬虫代码;
3、处理异常,解决反爬;
4、测试代码,完善代码;