对于文本处理相关工作都较为熟练
编程语言:python,java
数据库:mysql,mongodb,neo4j
掌握常见机器学习算法、深度学习算法
主要工作方向为nlp方面
熟悉知识图谱相关技能
熟悉Django
熟悉python爬虫
表单分类、营业执照字段分类、单样本构造分类模型
项目主要技术:Bilstm,Attention,NER,transformer
项目职责:
表单分类:
1)完成数据预处理:取图片上面1/3并由tif格式转为png格式,优图全文识别后只保留汉字,日期,转为训练所需数据形式存入csv
2)构建tag-to-id,id-to-tag,char-to-id,id-to-char字典
3)构建embedding-bilstm-attention模型并训练
4)模型优化(调整批次大小,学习率,加入attention,句子最小粒度可选char,word,char+word三种模式等等)
5)完成表单分类,使用规则提取表中组合名称及日期
文本分词模型构建
实体识别模型构建
机器翻译模型构建
知识图谱构建
1)完成数据预处理:取图片上面1/3并由tif格式转为png格式,优图全文识别后只保留汉字,日期,转为训练所需数据形式存入csv 2)构建tag-to-id,id-to-tag,char-to-id,id-to-char字典 3)构建embedding-bilstm-atte
上面图片并不是我参与的项目,我们目标和其类似,我主要负责图谱的构建(通过规则、算法完成实体、关系的抽取,实体融合),做成接口