熟悉python,JavaScript,精于python爬虫开发,熟悉scrapy,feapder爬虫框架。能够处理各种加密,验证码逆向,字体反扒,cookie验证。
熟悉xpath,beautifulsoup对页面提取信息,redis对数据去重。
熟悉selenium,pyppeteer等自动化框架
熟悉分布式爬虫部署,使用scrapyd将scrapy部署到各个Linux服务器上运行。
熟练mysql,mongodb,redis数据库,flask,django后端框架,vue前端框架,将数据存储数据库,通过前端进行展示。
项目一:bilibili视频弹幕抓取和分析
通过验证码识别和参数加密逆向,使用nodejs和python请求登录b站获取cookie
使用pyqt展示页面,输入视频地址,时间段,获取当前时间段的所有弹幕数据,并存储sql数据库
使用pandas库添加了数据分析功能,通过pyecharts绘制,能够分析视频的每个时间段弹幕发送量,弹幕词云图,用户弹幕发送量统计
项目二:电商平台数据抓取
获取平台数据接口,使用nodejs模拟生成加密参数,使用express库开放接口,供python请求获取参数;
请求数据过程使用feapder框架,同时在框架中设置钉钉预警。
获取到数据后,通过redis库进行去重处理,同时也对请求路径进行去重,保存mysql和mongodb数据库;
项目三:书籍展示系统
数据通过编写的scrapy爬虫框架获取,保存到mysql数据库。
项目使用了vue2+flask前后分离设计,vue使用vuex管理页面状态,vuerouter进行路由跳转,外接了ElementUI进行前端页面布局
后端flask开发了功能,用户登录,登录状态管理,登录使用了基本的加密和QQ邮箱验证码,从mysql数据库获取数据提供给前端页面,书籍库存接口使用Google protobuf进行前后端数据交互管理;
项目通过逆向技术,将参数通过nodejs生成后,使用python进行请求获取电商平台的数据,保存到数据库以供分析使用。
在b站获取视频地址,输入点击start后,开始抓取视频的弹幕信息,自动保存到sqlite数据库中。选中文件,能对各个时间段弹幕的发送量分析,并且生成词云图以及用户发送量统计