● 熟悉JavaSE相关的基础知识,熟悉常用的算法及数据结构
● 熟悉Linux,熟悉MySQL
● 熟悉JVM,熟悉常用的设计模式
● 熟练掌握TCP/IP、HTTP协议,有网络应用开发的经验
除此之外,对数据抓取有丰富的经验,可以应对数据抓取中出现的各种问题。
2017/03—2017/06 专利信息采集 项目负责人
项目实现了对国家专利网专利信息数据采集的功能。
1、通过谷歌开发者工具对HTTP数据包进行分析,对加密数据经行解密,通过Python开源库对图片验证码做识别。
2、通过抓取频率控制,ip池匿名代理,vpn代理以及浏览器伪装成功应对网站的反爬取系统。
2016/04—2016/07 简历信息抓取 项目负责人
项目实现了百度百科、和讯人物、问财三大网站上人物简历信息的采集。
1、 基于jsoup实现人物信息匹配,基于POI生成EXCEL表文件;
2、 通过抓取-对比机制对有重名人物的实现信息筛选;
3、 通过工厂方法模式简化了项目架构,使程序便于扩展;
4、 通过线程池实现了并发下载;