这是我独立全程完成的一个医疗与健康领域文本主题建模和分析的项目:
本人所在行业是医疗与健康行业,所以大部分的项目都是和医疗相关。数据是近30年来的医疗与卫生年报,文件都是OCR的PDF文件,每个文件比较大,有的多达1000页,少的也有200页。 目标对这些年报进行主题建模和分析。
目。
1. 转换PDF,word到txt文件
2. 对数据进行预处理(停用词,Abbreviation extraction, Lemmatization,Phrasing 等等)
3. 对这些文本使用LDA模型进行主题建模
4. 计算perplexity值选择最优的主题数目