项目简介:抽取对应实体识如(转让人,受让人,转让价,成交价,日期等),文本中使用基于BERT的序列标注模型,定制化实体识别;
个人职责:负责样本预处理,模型的训练及评价,基于tensorflow搭建网络模型,模型结构基于 BERT+BiLSTM+CRF,模型训练,模型的预测和评价。
所用技术:
1. 样本预处理,使用gensim和sklearn对应工具包进行样本清洗和初步分析,对样本去停用词等清洗工作,将处理过的样本转成bert的输入格式,存为tf.record序列。
2. 使用tensorflow提供的TPUEstimator,基于BERT开源代码和中文模型,定制自己的model_fn。
3. 使用BERT最后一层的输出,接入BiLSTM+CRF层,最终测试集整体准召率均达到85%以上。
4. 用规则进行后处理修正模型部分可控错误,以及关系映射。