对医疗文本进行多标签分类。数据是关于用户提交的各类关于癌症研究的proposal,比如皮肤癌,肺癌等等。数据大概有6000个这样的proposal,每个proposal为PDF或word文件(PDF文件居多),平均10页内容。每个proposal可能隶属于多个具体的癌症类型。目标是对这些proposal进行多标签分类。
我的职责全程独立负责完成项目。
1. 转换PDF,word到txt文件
2. 对数据进行预处理
3. 使用不同的特征工程方法(比如TFIDF,Word2Vec, BERT etc.,)
4. 使用不同的分类模型(比如SVM, Random Forest, XGB, Neural Network 等等)
5. 对数据集进行10轮交叉验证
6. 使用多个指标对结果进行验证和分析
7. 对结果进行可视化展示