负责网银、征信、个税项目数据的爬取、解析和存储工作。
研究银行网站封禁策略,并突破。
对接第三方公司,提供各种数据接口服务。
熟悉:selenium,webdriver,java,Rediss,qconf,zookeeper,Hbase
负责借记卡、信用卡项目数据的爬取以及解析工作,网银项目架构可拆分为分发调度端、采集端和解析端三个模块。分发调度采用JAVA代码,负责任务的调度下发和外部机构的对接;采集端采用Java代码,使用开源selenium技术进行模拟登录,然后获取cookie使用http请求并发抓取页面并解析;存储模块使用php语言,使用Mysql和Hbase大数据存储采集到的信息。目前采集代码包含80家银行,每天爬取数据达30万左右的用户数据,为风控部门做决策提供数据支撑。使用到的技术有Rediss,qconf,zookeeper,Hbase,KB监控。
研究银行网站封禁策略,并突破封禁。研究各网站的封禁策略,包括各种验证码,Cookie加密,银行安全控件检测,IP封禁,MAC封禁等策略。
为了实时监控各个方向数据情况,维护系统稳定性,开发了一套全流程监控系统,可监控从用户授权,采集过程,入库情况,机构回调的完整流程,及时发现问题,通过短信邮件方式通知负责人。项目主要由数据收集模块和报警模块组成,数据收集主要负责通过API接口收集各项数据指标,并存储到ES(ElasticSearch)集群;报警模块负责从ES取数据指标,根据规则判断业务是否需要报警。
角色 | 职位 |
负责人 | 高级爬虫工程师 |
队员 | 后端工程师 |