Java 熟练
Hadoop 一般
MySQL/Redis 熟练
算法 良好
并发编程 良好
English CET-6
开发互联网金融舆情分析平台
(2014.09 – 至今) 通过爬取和分析互联网舆情数据,发现企业的信用风险。.
利用HttpClient和Jsoup爬取并解析网页内容。
利用布隆过滤器和MinHash算法去除重复的网页。
利用Apache Solr开源工具对爬取的网页建立搜索引擎,根据金融领域 检索规则发现企业的风险。
利用情感词语料库分析网页文本的情感。
开发基于hadoop和redis的分布式文本去重系统
2015.11 - 2016.03
为了解决海量文本去重时间太长的问题,开发了分布式文本去重系统。
利用map-reduce模型计算文本的hashcode值作为文本的特征。
将特征以<hashcode,idList>键值对形式存入Redis数据库。
通过匹配Redis数据库中<hashcode,idList>特征,判断文本是否重复。
残联大数据就业平台
2016.5 – 至今
背景:通过数据挖掘和机器学习的方式,为残疾人就业、培训和教育提供智能的推荐。
采集与残疾人相关的个人信息、残疾信息、就业信息和企业的招聘信息。 利用K近邻算法将合适的残疾人推荐到合适的企业、合适的岗位和合适的培训方式。
利用K-Means聚类算法,分析残疾人的分布情况。
利用频繁项Apriori挖掘算法,分析残疾人的就业趋势。 以标签为核心的企业和残疾人特征分析。
必康医疗大数据平台 2014.10 – 2015.5
采集好大夫、春雨医生、百度医生的问医信息、病友交流信息。
通过特征抽取、实体发现技术,分析病与症、病与药之间、病与医院的关系。
基于以上关联关系,为病人提供更合适、更准确的寻医问病服务。
江苏省发改委项目
2015.10 – 至今
监察项目审批过程来防止腐败行为的发生。
通过分析审批人历史审批项目,建立项目审批人和待审批项目的关联度。 对关联度进行排序,将待审批项目分配给关联度最小的审批人。