熟练python语言、C语言,具有良好的编程习惯及编程能力;
掌握Linux 基本操作;
熟悉 TCP/IP、HTTP、HTTPS等网络协议,熟悉HTML5、JavaScript,了解Bootstrap框架;
掌握使用Scrapy和Scrapy-redis框架爬虫框架,熟悉大规模高性能抓取技巧;
熟悉Fidder、Xpath、正则、自动化测试selenium;
熟悉HOOK、chrome油猴等脚本注入技术;
掌握MySQL、熟悉MongoDB、Redis数据库;
熟悉爬虫管理系统crawlab开发使用;
熟悉Django后端框架及Flask后端框架;
有大型网站数据采集、基本js混淆逆向开发及有过APP抓包分析能力;
项目描述:起初公司招聘信息渠道并不完善,而公司业务与国家工信部之间合作针对职业教育发展做平台,数据的来源需要比较完善因此基于全国各大招聘信息,企业信息,进行数据分析操作。
项目技术:scrapy、scrapy-redis、aiosync、selenium、pyexcejs、nodejs、crawlab;
项目负责:
负责招聘网站的拓展与评估;
负责全国各大招聘网站爬虫脚本开发与维护;
负责企业信息采集,实现途径各大招聘网站注册信息进行采集
负责解决各个网站对应的反爬措施含验证码,cookies,post参数等风控问题
负责项目整体维护升级管理,纳入crawlab爬虫管理系统,优化定时采集策略;
项目总结:
网站数量过多难以维护,通过托于爬虫管理系统crawlab进行定时采集,邮箱发送是否采集失败;
部分网站出现有反人类验证码,需要通过自动化工具解决;
部分网站有加密参数,一般有先考虑小程序或者app入口是否存在加密参数,如果有就会采用对网站加密参数进行逆向。
角色 | 职位 |
负责人 | 爬虫工程师 |
队员 | 产品经理 |
队员 | UI设计师 |
项目描述:起初公司招聘信息渠道并不完善,而公司业务与国家工信部之间合作针对职业教育发展做平台,数据的来源需要比较完善因此基于全国各大招聘信息,企业信息,进行数据分析操作。 项目技术:scrapy、scrapy-redis、aiosync、selenium、pyexcejs、
项目描述:起初公司招聘信息渠道并不完善,而公司业务与国家工信部之间合作针对职业教育发展做平台,数据的来源需要比较完善因此基于全国各大招聘信息,企业信息,进行数据分析操作。 项目技术:scrapy、scrapy-redis、aiosync、selenium、pyexcejs、