1、熟悉java语言,会使用python、scala、php、js、c/c++、R语言。
2、熟悉机器学习常用算法如:k-means、PageRank、Apriori、KNN、svm、朴素贝叶斯、决策树等常用机器学习算法。熟悉bp神经网络和深度循环神经网络。熟悉deeplearn4j、会使用tensorflow。
3、熟悉hadoop、spark处理框架,会使用storm。
4、熟悉web框架SSH,和php框架tp。
5、熟悉Jsoup、httpunit爬虫工具,娴熟应用正则表达式。
6、熟悉自然语言处理相关技术,如:词向量、Word2vec
1、个人负责开发过类似于去哪里的酒店预订平台,前后台均一个人开发,后台使用springMVC+mybatis。
2、构建网络医疗信息可信度指标,提出一种网页量化方式,采用bp神经网络建模,使模型不依赖于专家知识。采用RNNLM构建基于概率的语言模型,达到90%多的高准确率。
3、完成大表分析后台,应客户要求采用spark做相关数据分析,在3台64G服务器,1亿条20个字段数据上实现13s内数据按字段查询前n条记录、分页查询、增加字段查询。(后面是将查询任务给gbase数据库了,spark只做算法分析,但是spark查询从一开始的120s优化到13s还是一个进步的)
4、个人完成命名实体识别后台,识别的实体有人名、地名、电话等13个实体,准确率、召回率90%以上,支持多语种。提取文档包括txt、pdf、ppt、doc、eml。改进了CRF算法用于识别地名,有较高准确率、召回率。
5、实时处理后台实现,采用storm实现16G、8线程、千兆网卡,20个字段数据,二台电脑之间发数据。做数据统计存储,达到48M/s的处理速度。
6、爬取过某房产平台上房源小区数据。爬取过国内2甲以上医院的官网,爬取过卫生局上公布的虚假药品的官网。
角色 | 职位 |
负责人 | 大数据工程师 |
队员 | 安卓工程师 |
队员 | 前端工程师 |
队员 | 后端工程师 |