负责定向数据的采集与爬取、解析处理、入库及备份等数据日常工作;
研究主流网站的爬取方法及数据清洗处理,负责非定向数据的清洗、整理、整合及合并等工作;
1、1-3年爬虫系统开发经验;
2、使用技术框架包括但不限于:Selenium
3、熟练使用正则表达式、xpath解析数据、搜索策略、算法、数据聚类、重组技术,熟悉反爬虫
4、熟练掌握分布式爬虫,日采集量千万级别以上,并充分了解抓取策略(1、深度优先遍历策略 2、宽度优先遍历策略 3、反向链接数策略等);、
5、熟悉海量代理IP池建设,复杂验证码识别
6、熟悉抓包工具(Wireshark,Fillder等),熟悉网络通信编程,网页抓取原理及技术,熟悉HTTP传输协议,能模拟各类操作爬虫;熟悉爬虫实现原理机制;对分布式和多线程技术有一定了解;
7、 有较强的主动学习能力、逻辑思维能力、分析并解决问题的能力;
8、 较强的责任心及团队合作精神,有独立解决问题和快速学习并应用新技术的能力。
内容:韩国 YES24演唱会门票抢票功能开发
技术实现:
1. 账号登录;
2. 日期选定和有票座位获取;
3. 座位锁定(随机或指定);
4. 联系人、联系方式、地址、付款方式和银行选择等信息提交;
5. 订单生成。
技术难点:
1、登录需要破解 token 的生成;
2、信息提交和订单生成需要破解身份 key 的生成;
3、验证码识别
该项目主要是解决不定时人工充值(副卡1368张)的及时性,减少人为的失误,降低了人工成本。
技术的实现:
1. 登录验证;
2. 生成副卡对应的 key_code;
3. 充值信息表单提交;
4. 完成充值;
技术难点:
1、登录密码有加密校验,使用 sha 1加密
2、key_code 的生成需要寻找生成的前端代码,通过 js2py 渲染生成;
3、表单信息的提交需要识别验证码(加减乘除)