1:精通各类网站数据爬取,掌握新型爬虫技术,区别传统爬虫的新技术(不仅可以生成给定系统的“读”接口,还可以根据用户的授权生成“写”接口,实时程序化地获取给定系统提供的数据,可以对数据进行规整化,且内容可直接过滤清洗而得到最终呈现,不会对服务器造成过大的压力)
2:熟悉java后台web开发技术
1:各地政务数据采集
通过新技术采集各地老旧政务系统(因原系统开发产商消亡,或者不方便使用系统数据库等原因无法获取到原始数据)
使用技术 :
1: 解读各种HTTP协议,js加密,验证码加密等问题,处理ca证书,flash系统的问题。也曾经协助获取C/S系统的数据
2:java SE的基础技术(jdbc,jpa等数据入库技术,以前网站数据切割(常用的string类,正则匹配,doc节点))
2:商城网站的开发
开发api商城网站。
使用技术:
spring boot ,redis ,mysql等
11111111111111111111111111111111111111111111111111
1:通过java语言爬取各种公开网站,如12306,京东,中国移动等。 2:参与过公司开展关于各地政府的数据爬取( 2-1:主要针对老旧系统,已丢原开发产商,无法对数据进行有效的维护的系统。 2-2:有一些政府业务希望能够聚合一起办理的系统,让数据多跑路让人少跑路等政府数据