熟悉pythonWeb主流框架开发,如:django,flask,fastapi
熟悉python+selenium开发网页自动化操作
可以负责数据库和其他项目的部署和安装
可以负责对python项目的维护和升级
编写python爬虫开发,熟练使用scrapy,scrapy-redis等框架,熟悉反爬机制,熟悉js逆向,了解指纹参数,模拟参数等等
PandaAuto项目
项目描述:本项目是为了减少人力成本而去开发的一套针对国外lead项目的自动化系统
1. 服务端:该模块主要负责为client模块提供数据接口和辅助接口
2 .client模块:该模块分为以下几个子模块:
1 flow模块: 帮助运营实现任务的刷量
2 master模块: 负责ip池,任务转化,刷量任务分发等等功能
3 slave模块:跟api模块对接拿取对应的任务并且去执行,其中有对网站反爬做了处理,对指纹和其他基础检测做了一些处理
4 manage模块:负责slave模块的版本的升级和保持浏览器版本在同一个版本内
魔塔
项目概况:
一款数据展示的Web项目,主要为用户提供淘宝行业数据和店铺数据,以抓取淘宝数据作为数据来源,基于Django框架,以前后端分离的形式实现业务逻辑;
项目描述:本项目基于python+django项目开发的魔塔项目,主要有以下模块:
1:爬虫系统,根据用户需求抓取用户所需要的数据。
2:登录模块,负责对用户的登录,注册和发送验证码等功能。
3:市场模块:负责对电子商务的行业数据,在前端页面进行数据可视化展示。
4:店铺模块:根据用户选取的店铺,爬虫系统根据用户选取的店铺去抓取数据,并进行数据化展示。
5:取数模块:用户根据自己需求拿取数据
直通车和生意参谋爬虫
项目概况:
登陆直通车抓取登陆店铺下的所有数据
遇到问题及解决方案如下:
1、使用Selenium+Chrome模拟登陆,其中通过调用window的api控制鼠标取登陆获取cookie和token,在携带cookie和token去抓取数据;
2、因为数据比较多,采用分表存储,以供后台调用;
3、使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件