● 从需求分析,技术调研,数据清洗,标签定义,到模型设计与实现,结果后处理,全栈开发;
● 具有NLP和CV两个领域的模型经验,包括CNN,RNN,图模型,GAN网络,多模态信息抽取模型等;
● 基于Paddle OCR 进行定制场景的识别精度优化;
● 具有金融、物流、司法等垂直领域的模型落地经验,及模型落地的能力。
相关标签:深度学习;python;pytorch;ubuntu;scrapy
1、文档提取项目
从金融文档中抽取指定的目标实体,涉及数据准备,模型开发及训练,后处理,返回格式化的输出结果。
2、单据提取项目
使用多模态技术,结合文本和位置信息,提取关键信息,最终进行格式化输出
从健康码中提取关键字段,流程包括: 1. OCR识别 2.基于规则的信息提取 3.基于多模态的信息提取 4.后处理格式化输出
合同提取为从合同文档中提取关键信息,整体流程如下: 1.输入为合同文档 2.通过OCR形成纯文本信息 3.使用实体抽取模型提取关键字段 4.后处理进行格式化输出