数学硕士毕业,主要集中于文本算法方面的研发
语言:Python(numpy,sklearn,tensorflow,jieba,gensim),Java(Spring boot,SpringMVC,ibatis)
机器学习:决策树,SVM,LR,随机森林,CART,Adaboost,BP神经网络,K均值,均值漂移,dbscan等
深度学习:cnn,rnn(lstm,gru),seq2seq,注意力机制等
关系型数据库:MySQL,PostgreSQL
非关系型数据库:redis,mongodb
数据仓库:hive
全文检索引擎:elasticsearch
爬虫:scrapy,bs4,xpath,正则等
(1)某政府网民敏感信息监测项目:数据接入(消息队列kafka),且有大规模文本聚类,文本内容去重(局部敏感哈希算法),垃圾内容过滤(文本分类,基于python-> gensim-sklearn框架),网民评论分析等
(2)某政府数据平台项目:涉及API接口研发,多种关系型或非关系型数据库(MySQL,Redis,Elasticsearch,mongodb,pgsql等)的使用管理
(3)某工业平台子项目:作为某大型家电集团的工业平台的子项目,担任了流水线数据接入,数据清洗,数据存储等任务,同时还完成了故障预测算法任务(回归/分类)。
(4)某家电平台数据对比需求:基于python-scrapy框架爬取京东电商家电类商品的评论、价格、型号等信息,然后对评论数据进行分析,发现产品的优缺点并反馈给客户。
(5)某公司贷款理财类需求:爬取58、赶集、百姓等分类信息网站中贷款理财消息的发布人、电话、发布内容等信息生成贷款黑名单,且建立风险管理模型,对客户违约行为进行预测,评估贷款风险。