基本信息

案例ID:167363

技术顾问:王二 - 4年经验 - abc

联系沟通

微信扫码,建群沟通

项目名称:数据结构化平台

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

项目简介:使用基于词频和位置等信息为特征的,正负样本不均衡样本集的机器学习分类任务。基于正则表达式抽取后进行实体分类。
个人职责:负责样本预处理,生成特征,特征选择,模型训练,模型的选择和评价。
所用技术:
1. 做Under Sample 和 Over Sample 处理正负样本不均衡问题,做交叉验证;
2. 对关键词周围的词频生成语言模型,用卡方和PCA做特征选择和降维。
3. 对比XGboost和Adaboost在效率和效果的表现,决策树作为弱分类器的机器学习模型,在少样本和样本不均的数据集上表现良好;
4. 构建模型评价模块,绘制在训练集,验证集,测试集上的PR,AUC曲线,混淆矩阵。计算准召率,F1得分等;

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服