精通图像识别、nlp机器学习算法,python数据分析、可视化,爬虫(网页,app),会写接口,主流数据库、大数据组件:hbase、phoenix、hive、elasticsearch等的ETL,可自行开发脚本实时同步,也熟练掌握现有主流ETL工具(DataX,sdc等),以上技术都是在公司项目中应用的实际技能,均熟练掌握。
数据分析:通过历史用户的全部生命周期数据,分析其意向水平,通过用户的各项特征,对五千万用户数据进行建模,预测其购买意向等级,训练、测试正确率,均在85%以上,并开发接口,服务五百多家公司。
爬虫:爬取过汽车之家,腾讯新闻、前程无忧、微博等各大网站的信息,并做可视化处理
ETL:负责公司能对接到的所有业务数据的ETL,把外包商的数据通过ETL工具或者脚本,进行实时同步到公司数据库,涉及相关的数据库有hbase、phoenix、hive、mysql、elasticsearch、mangodb、sqlserver、clickhouse
算法:身份证信息识别,评论情感识别等,有自己训练模型经验,单人在kaggle比赛排名前百,leetcode中等以上题百余道
疫情地图实现的是从腾讯新闻爬取每日的实时疫情数据,然后可视化其热力图 汽车之家实现自己手动输入自定义搜索关键词,爬取汽车之家的相关信息评论,类似百度搜索功能的前半部分
数据的ETL,通过工具或脚本,python脚本同步,DataX,streamsets,kafka等工具,实现实时同步、更新