NTCIR-16 Real-MedNLP Subtask3 第二名,主要参赛人员
任务描述: 任 从给定的病历报告中,对病历文本中包含的多个疾病和药物的不良药物反应程度进行分类。
1. 针对样本不均衡(1300+/100-/100-/200-):1.重采样(重复少类样本);2.重加权(加权交叉熵损失、Focal loss
等);3.提出的两阶段训练方法(第一阶段正常交叉熵训练,使模型学习原始数据分布;第二阶段加权交叉熵训练,
消除数据类别比例对模型预测的影响)。
2. 针对数据量较少:第一是课程式学习方法(1.构建一个疾病、药物分类的数据集;2.构建一个完形填空的任务,候选
答案是正确答案以及三个错误答案;任务难度渐进式提升,模型学习一些先验知识);第二是数据增强(EDA以及
Embedding层的数据增强)。
3. 特征增强: 通过提示句的形式将疾病、药物对应的类别和属性特征输入到模型中,引导模型学习类别和属性特征。
4. 模型集成 :将训练得到的不同模型进行投票,概率平均等集成方法。