本人数学专业硕士,7年前,大家都在说数据挖掘,之后流行说机器学习,最近几年流行深度学习,现在大家都在说人工智能,这个实际上是算法行业进步的标志,数据挖掘和机器学习强调人工去提取特征,人工构建的特征好坏直接决定了算法模型拟合的上限,深度学习则是自动化提取特征的,能够从纷繁复杂的业务场景中自动提取与业务目标相关的特征。现在大家都在说人工智能,那是因为算法只有落地实现价值才是最重要的,深度学习理论懂的人很多,但是能够结合业务场景给出适合的算法的人却不多,现在是强调业务应用能力,本人有着丰富的业务场景算法设计实战项目经验,能够独自设计符合业务要求的算法框架,并且能够设计算法开发的优秀框架,还能进行算法参数调优和测试。算法只有依托于并行计算框架才能最大化发挥价值。
精通各类算法,包括深度学习中的卷积和循环神经网络及其各种丰富多样的变形、优化与改进的神经网络结构。精通tensorflow的使用,精通spark并行计算框架及spark性能调优,熟练运用scala进行基于spark的复杂逻辑开发和开发框架设计,熟练运用python使用spark和tensorflow两个并行计算框架,并且能够将两者高效结合。精通所有传统的机器学习算法,有sarkstreaming实时计算框架的开发经验。熟悉java,linux,shell脚本,精通matlab,python,spss。
熟练项目整体算法设计和开发框架设计,项目均采用高效模块化开发,开发效率高,可拓展性强,易于后期不断加入新的需求。熟练整个算法项目的整个标准流程,从算法项目最底层的基础特征表构建,之后是特征工程,特征工程中包含数据标准化,特征选取,特征降维等,之后是算法模型开发,之后是模型融合,之后是参数优化。
精钻的几个方向分别介绍如下:
自然语言处理,nlp,文本分类,情感分析,卡槽抽取,信息抽取,最新的多轮对话系统,智能客服系统,典型的有faq,kbqa等,能够紧跟国际最前沿技术,比如去年12月公开源码的bert,今年刚出的xlnet等,包括自动图谱抽取技术等,准确率国际领先水平
图像处理,图像分类,图像检测,精通图像抽取的传统网络vgg,googlenet,inception,dense,残差网络等等,传统的FasterRcnn,最新的maskRcnn等
本人数学专业出身,对数学有着很浓厚的兴趣,所以把数学学的很
智能化移动办公系统(知名OA办公企业)
项目职务: 项目负责人
项目描述: 办公领域的领军者,智能化办公是近期要实现的目标,所谓智能化就是用户只需要采用语音的方式进行办公,贴近自然,更加便利.
项目职责: 负责整个智能客服系统的算法架构设计和核心代码开发,主要分为以下几个模块:
1. 样本丰富模块
样本丰富模块,设计一套由简单成本低到复杂精度高的项目演进系统,首先是使用机器学习和语言模型采用无监督的方式丰富样本,之后在无监督方式丰富了足够样本后,逐渐过渡到seq2seq的深度学习翻译模型。同时采用多渠道的样本丰富模型设计,包括采用GAN模型,传统的RNN系列+attention模型,基于BertTransformer的模型等。
2. 任务型对话模块
针对任务型对话系统,设计基于框架的语义标识体系,做意图分类(intent classification);同时识别问句中的特殊实体(slotfilling),采用联合训练法,包括传统的BiLSTM +Attention+multiTask,BertTransformer + multiTask,百度Ernie+multitask.
3. 知识型对话模块
设计一整套知识型对话系统,由成本低廉性价比高的版本过度到成本较高、精度最高的版本。设计FAQ系统,采用Siamese+BertTransformer兼顾效率和精度,也试验了最新的Lattice CNN + Siamese。之后,构建知识图谱,采用KBQA的方案,包括本体设计、知识获取、知识标识、知识推理等模块,KBQA主要有两个思路采用国际最新KBQA模型.
医疗知识图谱的构建(复星集团)
项目职务: 项目负责人
项目描述: 医疗知识图谱的构建是其他自然语言业务任务的基础,构建一个好的医疗知识图谱需要医学专家进行医学规范约定,图谱本体结构的合理构建,图谱存储和查询的优化设计等
项目职责:
1. 构建自然语言处理代码框架,实现自然语言处理任务扩充和累积,包括基础的分词、词向量化、文本预处理模块,包括实体识别、主意图识别、实体与主意图关系、情感分析、文本分类、关系抽取、关系推理等模块。
2. 知识获取模块:构建医学实体识别模型(BILSTM+CRF),研究国际最新进展,添加多个特征和做文本预训练,帮助提高实体识别准确率
构建基于深度学习模型(MultiGRUs+multi features+Attention)与模板相结合的实体关系抽取模型,自动对医学文本进行学习,抽取实体关系
3. 逻辑推理模块:基于医学领域知识标准,构建医疗知识图谱,基于Protege构建图谱本体结构,运用neo4j进行图存储和query。设计和自定义neo4j图谱推理引擎,线下运用推理进行知识补充,线上进行结果查询。
基于医疗知识图谱的问诊系统(复星集团)
项目职务: 项目负责人
项目描述: 将人工智能运用于智慧医疗,能够代替医生与患者进行深入互动,根据患者的病情描述,并结合症状病史搜集,生成符合病历规范的病史概要,大幅度缩减了接诊过程中的医患沟通时间和病历书写时间,并且针对于大部分常见疾病做一个基本的诊断
项目职责:
1. 任务型对话模块:设计框架表示体系,做意图分类+卡槽抽取,采用联合训练法,包括传统的BiLSTM +Attention+multiTask
2. 知识型对话模块:设计FAQ系统,采用Siamese+ CNN-DSSM兼顾效率和精度
3.根据实体识别和注意图识别,结合相应模板,形成图查询语句
4.构建基于大量病例的疾病诊断模型(机器学习模型和统计学模型)
5.问诊的问答和流程设计
电商平台商品推荐项目(基于spark的电商平台主页推荐,商品详情页推荐)
项目职务: 带领本算法团队,大数据算法设计与开发
项目描述: 为本公司所服务大型电商平台进行全面智能化的商品推荐项目,此项目较庞大,设计业务面较多,涉及的具体场景对应的算法较多,以下分别进行说明,本推荐项目是对比与天猫商城的推荐系统,推荐的实时性、准确性、敏感捕捉用户兴趣点的能力相当。
第一个项目:主页各板块推荐
1. 针对于行为少或没有行为的用户,采用用户冷启动相关推荐算法,包括采用用户向量相似度匹配推荐算法、hot推荐(榜单推荐)、组合推荐和生物属性相似性推荐与组合推荐相结合的推荐。
2.针对于用户行为丰富的推荐,此种推荐比较复杂,分为以下7类行为,按照优先级进行排序:
(1)用户实时的浏览行为,可选的推荐算法为:同类hot,基于物品的协同过滤推荐,基于商品内容的推荐
(2)近期浏览行为,可选的推荐算法为:同类hot,基于物品
负责项目的整体架构设计(包括硬件、软件层面)、核心代码开发设计、项目生产部署、算法团队日常工作管理、人力资源管理等。 从地产各个方面进行全方位的舆情分析,包括:政府政策层面舆情、房企舆情、城市地区相关舆情、宏观行业层面舆情等角度进行地产领域舆情模型构建 分别进行新闻实体抽
负责项目的整体架构设计(包括硬件、软件层面)、核心代码开发设计、项目生产部署、算法团队日常工作管理、人力资源管理等。 结合公司财务因子、发债行情因子、舆情因子等构建公司违约风险模型,其中要解决小样本问题、样本不均衡问题,采用传统的机器学习分类模型(逻辑回归、Xgboost分
【该评论为5星(满分)好评,评论人选择不公开展示】