毕业至今已有三年工作经验,从 java转 python 爬虫,系统的积累了软件工程方法以及网络安全知识。在最近一年半的工作中对爬虫深入了解,涉及常规的网络接口抓包以及 js 破解加密,app 去壳寻找关键接口逆向,机器学习抽取字段,网易验证码破解以及图片验证码模型训练都有掌握.
1.爬虫破解(设计各类 js 加密,网站验证码破解)抖音头条千万级抓取
2.爬虫平台搭建
3.数据存储涉及 mongo 千万级别存储
4.机器学习对验证码模型训练以及字段抽取应用(语义识别)
字节系列网站数据抓取,主要dou音,tou条,巨量算数等,全部加密字段独立破解完成,日采集量上千万,数据稳定。
大规模网络爬虫,可视化提供数据爬取流程,可同时爬取多个不同站点网站,数据分析入库,确保每个环节可控,可靠,可调。