项目简介:使用基于词频和位置等信息为特征的,正负样本不均衡样本集的机器学习分类任务。基于正则表达式抽取后进行实体分类。
个人职责:负责样本预处理,生成特征,特征选择,模型训练,模型的选择和评价。
所用技术:
1. 做Under Sample 和 Over Sample 处理正负样本不均衡问题,做交叉验证;
2. 对关键词周围的词频生成语言模型,用卡方和PCA做特征选择和降维。
3. 对比XGboost和Adaboost在效率和效果的表现,决策树作为弱分类器的机器学习模型,在少样本和样本不均的数据集上表现良好;
4. 构建模型评价模块,绘制在训练集,验证集,测试集上的PR,AUC曲线,混淆矩阵。计算准召率,F1得分等;