设计和开发分布式网络爬虫,以及爬虫效果持续优化;
分析结构化和非结构化数据,并对数据抓取、信息提取、去重、清洗;
互联网网站,网页,链接的特征挖掘;
负责指定网站、APP 等数据爬取,第三方数据对接,并按规定入库;
与技术团队进行沟通,负责爬虫数据与业务系统的整合对接。
项目名称:基金系统
项目描述:通过客户授权,对客户的基金账户进行管理。实时抓取到客户的余额,出入金等相关信息,对客户资金的流转方向进行分析,对异常的行为通过接入阿里云的预警系统及时提醒到客户以及相关人员,并通过自定义的计算方式计算出该用户的最大回撤率,净值,年化收益率,夏普比例等相关指标。
项目名称:多家交易所数据得抓取
项目描述:实时抓取大约30家交易所所有币对得成交量,深度等数据并保存为csv文件,供其他团队对数据进行分析使用。对程序进行监控并预警,通过接入钉钉,一旦数据出现异常,及时处理,每天对数据进行查重处理,筛选后的数据在通过计算公式计算出当日的大单量,小单量,真实成交量等指标,对交易所进行排名并展示。
项目名称:本公司dashboard系统得搭建
项目描述:通过抓取国内外各网站数字货币得相关信息,对本系统进行充实更新,包括推特,telegram,非小号,cmc等一系列聊天工具或数据网址,并对抓取下来得数据进行过滤筛选,并根据自己独有得计算公式计算出新的指标,放在系统中供内部以及接入方使用,并对一些聊天信息以及推特内容进行舆情处理。
项目描述:通过客户授权,对客户的基金账户进行管理。实时抓取到客户的余额,出入金等相关信息,对客户资金的流转方向进行分析,对异常的行为通过接入阿里云的预警系统及时提醒到客户以及相关人员,并通过自定义的计算方式计算出该用户的最大回撤率,净值,年化收益率,夏普比例等相关指标。
项目名称:多家交易所数据得抓取 项目描述:实时抓取大约30家交易所所有币对得成交量,深度等数据并保存为csv文件,供其他团队对数据进行分析使用。对程序进行监控并预警,通过接入钉钉,一旦数据出现异常,及时处理,每天对数据进行查重处理,筛选后的数据在通过计算公式计算出当日的大单量,
项目名称:多家交易所数据得抓取 项目描述:实时抓取大约30家交易所所有币对得成交量,深度等数据并保存为csv文件,供其他团队对数据进行分析使用。对程序进行监控并预警,通过接入钉钉,一旦数据出现异常,及时处理,每天对数据进行查重处理,筛选后的数据在通过计算公式计算出当日的大单量,