金融研报文本信息抽取

人工智能-其他 王二

项目简介:抽取对应实体识如(转让人,受让人,转让价,成交价,日期等),文本中使用基于BERT的序列标注模型,定制化实体识别; 个人职责:负责样本预处理,模型的训练及评价,基于tensorflow搭建网络模型,模型结构基于 BERT+BiLSTM+CRF,模型训练,模型的预测和评价。 所用技术: 1. 样本预处理,使用gensim和sklearn对应工具包进行样本清洗和初步分析,对样本去停用词等清洗工作,将处理过的样本转成bert的输入格式,存为tf.record序列。 2. 使用tensorflow提供的TPUEstimator,基于BERT开源代码和中文模型,定制自己的model_f...

金融研报文本信息抽取
金融研报文本信息抽取

数据结构化平台

企业服务-数据服务 王二

项目简介:使用基于词频和位置等信息为特征的,正负样本不均衡样本集的机器学习分类任务。基于正则表达式抽取后进行实体分类。 个人职责:负责样本预处理,生成特征,特征选择,模型训练,模型的选择和评价。 所用技术: 1. 做Under Sample 和 Over Sample 处理正负样本不均衡问题,做交叉验证; 2. 对关键词周围的词频生成语言模型,用卡方和PCA做特征选择和降维。 3. 对比XGboost和Adaboost在效率和效果的表现,决策树作为弱分类器的机器学习模型,在少样本和样本不均的数据集上表现良好; 4. 构建模型评价模块,绘制在训练集,验证集,测试集上的PR,AUC曲线...

数据结构化平台
数据结构化平台
------ 加载完毕 ------
联系需求方端客服