架构层:scrapy及scrapy-redis爬虫架构整体搭建(之前在公司单独做过类似架构搭建,小说抓取项目,各媒体平台账号统一数据抓取整理);
反爬处理:精通滑块验证码破解(登录验证),IP防封(代理池搭建),selenium+phantomjs(Google headless或firefox headless)特定页面抓取,js加密破解(部分页面加密数据加载),请求数据校验破解(部分请求的token),了解APP模拟及接口签名破解,cookie登录管理(池搭建和生命周期管理)。
整体爬虫维护:spider生命周期和抓取日志监控,数据抓取预警,反爬和模板调整,抓取性能优化。
后台接口:熟悉flask创建部分轻量级接口,了解django搭建数据展示站点。
数据库层面:熟悉MySQL,Sqlserver,Redis,了解MongoDB。
结构化页面处理:精通xpath,re,json,HTML,了解Dom,CSS;
数据整理:jieba分词,数据模块化处理(增删改);
服务器:熟悉Linux系统项目部署及环境搭建。
业务层面:站点视频数据抓取(包括但不限于优酷、爱奇艺、cntv、b站等视频站点) ,各站点文章数据抓取(包含各类国内国外站点) 公司主要做媒体网站数据聚合服务,涉及到的业务主要是抓取各类媒体网站文章信息,并做数据清理和结构化处理。
主要涉及技术点包括架构层面:公司自建爬虫架构,包含老系统改造,建立架构层面的scrapy,scrapy-redis
反爬层面:IP防封,访问频次处理,模拟验证码操作,登录cookie处理,数据js 加密。
项目职责:运用 Python爬虫系统自建 分布式爬虫 flask接口开发,反selenium+phantomjs模拟抓取(豆瓣搜索接口破解) 抓取方式:网页抓取,APP抓取,全站深度优先抓取,广度优先抓取(优酷网全网视频数据深度抓取) 系统层面:爬虫运行状态监控,日志处理系统,爬虫抓取性能持续优化。
抓取方式:网页抓取,APP抓取。
项目业绩:完成了全站深度优先抓取,广度优先抓取 系统层面的爬虫运行状态监控,日志处理系统,爬虫任务调度系统,爬虫抓取性能持续优化。