全球Top 50 大学计算机博士,目前担任数据科学家,主要负责自然语言处理方面的项目的实施和管理工作。
主要技能:
1. LDA主题建模
2. 机器学习(多分类和多标签文本分类, 熟悉各类算法比如XGB, Random Forest等)
3. 深度学习 (熟悉tensorflow, keras,Pytorch)
4. 基于知识图谱的智能问答
本人所在行业为医疗与健康行业。以下择选出2个自然语言处理方面的项目供参考。
项目一: 基于知识图谱的医疗与健康智能问答系统
对公司内部的大量的医疗与健康领域的研究人员提交的proposal(关于特定疾病的研究现状,方法等等)文档进行基于知识图谱的智能问答系统的构建。研究人员提交的proposal为PDF格式,每个PDF大约10页,大约有5000个这样的PDF文件,同时还有和每个PDF文件配套的相关说明数据,以excel保存。该excel数据提供每个PDF文件的researcher的具体信息,比如ID,姓名,性别,所在领域,所属机构,所发表的论文,所提交的proposal等等。首先提取出PDF文件的内容保存到txt文件当中,对这些数据进行实体和关系的识别,并存入到neo4j中。最终构建出包含8类规模大约为2万的知识实体和15类规模约20万的实体关系的知识图谱。基于该知识图谱,和业务部门制定出相关的检测规则,利用自然语言处理技术进行解析,开发出一个智能问答系统。项目最终以web 应用的方式展示,业务部门可以使用实体识别,关系发现,智能问答等等功能。
全程独立完成项目。包括项目的需求分析,设计,开发,调试,实施和维护。最终向Executive team和业务部门汇报和演示项目的成果。
项目二: 医疗文本多标签和多类别分类:
对医疗文本进行多标签分类。数据是关于用户提交的各类关于癌症研究的proposal,比如皮肤癌,肺癌等等。数据大概有6000个这样的proposal,每个proposal为PDF或word文件(PDF文件居多),平均10页内容。每个proposal可能隶属于多个具体的癌症类型。目标是对这些proposal进行多标签分类。
我的职责全程独立负责完成项目。
1. 转换PDF,word到txt文件
2. 对数据进行预处理
3. 使用不同的特征工程方法(比如TFIDF,Word2Vec, BERT etc.,)
4. 使用不同的分类模型(比如SVM, Random Forest, XGB, Neural Network 等等)
5. 对数据集进行10轮交叉验证
6. 使用多个指标对结果进行验证和分析
7. 对结果进行可视化展示
项目三: 基于知识图谱的医疗与健康智能问答系统
对公司内部的大量的医疗与健康领域的研究人员提交的proposal(关于特定疾病的研究现状,方法等等)文档进行基于知识图谱的智能问答系统的构建。研究人员提交的proposal为PDF格式,每个PDF大约10页,大约有5000个这样的PDF文件,同时还有和每个PDF文件配套的相关说明数据,以excel保存。该excel数据提供每个PDF文件的researcher的具体信息,比如ID,姓名,性别,所在领域,所属机构,所发表的论文,所提交的proposal等等。首先提取出PDF文件的内容保存到txt文件当中,对这些数据进行实体和关系的识别,并存入到neo4j中。最终构建出包含8类规模大约为2万的知识实体和15类规模约20万的实体关系的知识图谱。基于该知识图谱,和业务部门制定出相关的检测规则,利用自然语言处理技术进行解析,开发出一个智能问答系统。项目最终以web 应用的方式展示,业务部门可以使用实体识别,关系发现,智能问答等等功能。
全程独立完成项目。包括项目的需求分析,设计,开发,调试,实施和维护。最终向Executive team和业务部门汇报和演示项目的成果。
这是我独立全程完成的一个医疗与健康领域文本主题建模和分析的项目: 本人所在行业是医疗与健康行业,所以大部分的项目都是和医疗相关。数据是近30年来的医疗与卫生年报,文件都是OCR的PDF文件,每个文件比较大,有的多达1000页,少的也有200页。 目标对这些年报进行主题建模和分析
这是我独立全程完成的一个医疗与健康领域文本主题建模和分析的项目: 本人所在行业是医疗与健康行业,所以大部分的项目都是和医疗相关。数据是近30年来的医疗与卫生年报,文件都是OCR的PDF文件,每个文件比较大,有的多达1000页,少的也有200页。 目标对这些年报进行主题建模和分析
对医疗文本进行多标签分类。数据是关于用户提交的各类关于癌症研究的proposal,比如皮肤癌,肺癌等等。数据大概有6000个这样的proposal,每个proposal为PDF或word文件(PDF文件居多),平均10页内容。每个proposal可能隶属于多个具体的癌症类型。目标
项目一: 基于知识图谱的医疗与健康智能问答系统 对公司内部的大量的医疗与健康领域的研究人员提交的proposal(关于特定疾病的研究现状,方法等等)文档进行基于知识图谱的智能问答系统的构建。研究人员提交的proposal为PDF格式,每个PDF大约10页,大约有5000个这