这是我独立全程完成的一个医疗与健康领域文本主题建模和分析的项目: 本人所在行业是医疗与健康行业,所以大部分的项目都是和医疗相关。数据是近30年来的医疗与卫生年报,文件都是OCR的PDF文件,每个文件比较大,有的多达1000页,少的也有200页。 目标对这些年报进行主题建模和分析。 目。 1. 转换PDF,word到txt文件 2. 对数据进行预处理(停用词,Abbreviation extraction, Lemmatization,Phrasing 等等) 3. 对这些文本使用LDA模型进行主题建模 4. 计算perplexity值选择最优的主题数目...
这是我独立全程完成的一个医疗与健康领域文本主题建模和分析的项目: 本人所在行业是医疗与健康行业,所以大部分的项目都是和医疗相关。数据是近30年来的医疗与卫生年报,文件都是OCR的PDF文件,每个文件比较大,有的多达1000页,少的也有200页。 目标对这些年报进行主题建模和分析。 目。 1. 转换PDF,word到txt文件 2. 对数据进行预处理(停用词,Abbreviation extraction, Lemmatization,Phrasing 等等) 3. 对这些文本使用LDA模型进行主题建模 4. 计算perplexity值选择最优的主题数目...
对医疗文本进行多标签分类。数据是关于用户提交的各类关于癌症研究的proposal,比如皮肤癌,肺癌等等。数据大概有6000个这样的proposal,每个proposal为PDF或word文件(PDF文件居多),平均10页内容。每个proposal可能隶属于多个具体的癌症类型。目标是对这些proposal进行多标签分类。 我的职责全程独立负责完成项目。 1. 转换PDF,word到txt文件 2. 对数据进行预处理 3. 使用不同的特征工程方法(比如TFIDF,Word2Vec, BERT etc.,) 4. 使用不同的分类模型(比如SVM, Random Forest, XGB, N...
项目一: 基于知识图谱的医疗与健康智能问答系统 对公司内部的大量的医疗与健康领域的研究人员提交的proposal(关于特定疾病的研究现状,方法等等)文档进行基于知识图谱的智能问答系统的构建。研究人员提交的proposal为PDF格式,每个PDF大约10页,大约有5000个这样的PDF文件,同时还有和每个PDF文件配套的相关说明数据,以excel保存。该excel数据提供每个PDF文件的researcher的具体信息,比如ID,姓名,性别,所在领域,所属机构,所发表的论文,所提交的proposal等等。首先提取出PDF文件的内容保存到txt文件当中,对这些数据进行实体和关系的识别,并存入到...