项目描述:起初公司招聘信息渠道并不完善,而公司业务与国家工信部之间合作针对职业教育发展做平台,数据的来源需要比较完善因此基于全国各大招聘信息,企业信息,进行数据分析操作。
项目技术:scrapy、scrapy-redis、aiosync、selenium、pyexcejs、nodejs、crawlab;
项目负责:
负责招聘网站的拓展与评估;
负责全国各大招聘网站爬虫脚本开发与维护;
负责企业信息采集,实现途径各大招聘网站注册信息进行采集
负责解决各个网站对应的反爬措施含验证码,cookies,post参数等风控问题
负责项目整体维护升级管理,纳入crawlab爬虫管理系统,优化定时采集策略;
项目总结:
网站数量过多难以维护,通过托于爬虫管理系统crawlab进行定时采集,邮箱发送是否采集失败;
部分网站出现有反人类验证码,需要通过自动化工具解决;
部分网站有加密参数,一般有先考虑小程序或者app入口是否存在加密参数,如果有就会采用对网站加密参数进行逆向。