1、爬虫:负责公司数据需求采集,存入 ES或 PG 数据库中.
2、数据开发:
3、数据打标:写 spark 脚本对关键字段进行提取,或利用配置表打标.
4、数据迁移,写 spark 脚本将数据从 ES 拉取至 pg。
5、逆向加密:破解网址加密参数
1 使用正则表达式、xpath等提取数据
2 写sql对pg库数据进行规则化处理:增删查改
1、爬虫:负责公司数据需求采集,存入 ES或 PG 数据库中.
2、数据开发:
3、数据打标:写 spark 脚本对关键字段进行提取,或利用配置表打标.
4、数据迁移,写 spark 脚本将数据从 ES 拉取至 pg。
5、逆向加密:破解网址加密参数,专攻瑞数