本项目对全国的乡村振兴数据进行收录、计算而后产出可视化页面。
其中数据的收录途径有三个:
1.文件上传
2.api获取
3.爬虫获取。
其中我负责的爬虫获取这块。使用jsoup + htmlunit来完成爬虫工作。
为确保爬虫任务不会受到系统重启这类因素影响,所以使用redis中的set集合设计了一个简单的爬虫任务调度器。
遇到过得问题:通过hanlp和hash方法解决了数据录入之后存在区划数据缺漏问题。
责任描述:
负责接口文档编写;线上环境维护;编写爬虫进行数据采集、补全;试点示范乡村画像的后端开发工作;数据库设计;