1.熟悉常见的深度学习理论和框架(pytorch,tensorflow)
2.熟悉常见机器学习算法(线性回归,LR,HMM,CRF)
3.熟悉Neo4j图数据库的使用
4.熟悉word2vec,fasttext工具使用
5.熟悉文本分类,文本生成,NER(命名实体识别),关系识别,事件识别任务
6.熟悉rnn、lstm、gru、transformer、bert模型与attention机制
‘公司年报智能解析
公司年报智能解析’
2021.7
2021.7-2021.9
2021.9
项目概述:从pdf格式的年报中抽取出年报所涉及的公司以及公司的主营业务,从年报中的图表中抽取出公司的营业收入
构成表,统一将最终提取到的信息存库,用来对公司年度状况进行分析,并且提供公司年报数据给有需求的公司。
负责板块:
1.将pdf格式的年报数据进行转化,转化成txt格式的年报数据;
2.从转化好txt格式的年报数据中抽取出公司以及公司的主营业务;
3.从年报中的图表中抽取出公司的盈亏状况,并将所有信息入库。
技术方案:
1.利用OCR模型将pdf格式的年报数据转成txt格式(OCR模型可以高效的解析出pdf文件中的图片与表格);
2.应用BERT+bilstm+crf模型抽取出公司名以及公司的主营业务
3.利用规则从OCR输出的图表中匹配出公司营业收入构成
‘Pandora
Pandora’
----
----智能金融服务平台
智能金融服务平台
2021.7
2021.7-至今
至今
项目概述:从有关汽车、芯片方面的新闻中抽取出重要事件(股价上升,股价下降,合作,事故等),录入neo4j图数据库
中,统计事件关联的新闻数量,查询事件相关联的公司所对应的股票代码,以股票代码为主键,将事件相关信息录入到ES
中,同时保存此事件对所关联公司的影响得分。
负责板块:1.新闻文本分类(三分类汽车、芯片、其它)
2.事件抽取(120种事件类型)
技术方案:1.应用BERT+lstm做新闻分类,每类数据5万左右,经数据增强(实体替换)有效扩充了数据集,最终模型指标
acc达到96%;
2.事件抽取本身就是NLP领域的难题,目前市面上的事件抽取模型很少,通过调研和查阅论文我们实现了排名第三和第六的
论文代码,模型主要适用于英文数据事件提取,我们修改成了提取中文段落级别的事件抽取,我主要负责其中的24类事件
抽取,通过事件类型找出符合的触发词,并标注出事件的元素,我们采用的是两个基于bert的QA模型——一个用于事件触
发词提取,另一个用于参数提取。对于每个问题,我们设计一个或多个问题模板,将输入句子映射到标准的BERT输入格式,
因此,触发器提取成为识别输入句子中的“动作”或“动词”并确定其事件类型的请求;参数提取成为识别事件元素的请求
序列,每个请求都是输入句子中的一个文本跨度。(将事件提取视为QA的好处是不需要预测实体信息,也不需要实体识别;
事件参数提取作为端到端任务执行;(2)问题回答范式自然允许跨语义相关的参数角色传递参数提取知识。)
‘Bidding
Bidding’
----
----
招标辅助对话系统
招标辅助对话系统
2020.4
2020.4-2020.10
2020.10
项目概述:为方便简化繁琐的招投标,我们设计了自动获取招标的招标时间,招标地点,招标形式,招标保证金,投标人资
质要求的微信公众号对话平台,我们以对话聊天的形式从公众号中获得以上信息,以此来判断投标公司是否符合招标要求。
负责板块:
1.抽取招标公告实体,和投标公司资质信息实体
2.判断对话是否围绕招标话题。
技术方案:
1.
构建NER(BERT+bilstm+crf)模型,从招标公告中抽取出所需要的实体并写入Ne4j图数据库中,利用规则抽取出投
标公司的注册资本和主营产品信息,从而判断招标公司是否符合该招标公告信息要求。
2.利用BERT模型来判断句子对是否与招标信息有关联,
有关的话采用固定对话模板回复,
无关的话调用Unit对话API回复。