1.用JAVA编写爬虫框架,优化爬虫性能。
2.用爬虫实现对各个网站数据的实时抓取,完成网站数据接口
3.解决爬取过程中的难点,如:模拟登陆,验证码识别,IP代理策略,页面内容加密,集群并发抓取。
4.图片中的文字识别。
5.根据实际需要,将解析后的数据进行初步清洗,写入hbase,hadoop,mysql,sqlserver,excel等,并对数据进行初步的清洗。
6.在LINUX下部属自动化运行程序,实现对数据的实时更新或持久抓取。
7.改进爬虫相关技术
项目名称: 舆情监控
项目时间: 2016 年 8 月 至 2017 年 1 月
公司名称: 上海你我贷金融信息服务有限公司
职位名称: 数据工程师
项目描述: 通过对金融相关平台的监控,使用分词等技术手段,对最近出现的相关的热词,进行全方位的监控。
项目职责: 负责项目规划,设计,责任划分,项目沟通
工作业绩及成果: 1.实时监控最近的舆情状况,可以通过配置对某些内容进行重点昨监控。
2.对监控到的内容,进行邮件,短信等方式进行预警,可以对近期的舆情状况分析,查看走势。
3.关键字搜索相关内容。