编程语言:python java 掌握:问答技术、阅读理解、信息抽取、few-shot、分类、回归、聚类 使用:oracle、mysql 、HIVE 、HBASE 、MongoDB、VC、pycharm、eclipse、HTML(CSS)
1、国家信息中心标书抽取 主要职责:负责指标规则制定和以及正则抽取 项目简介:通过分析标注数据的格式,抽取相关字段信息,结合查找和命名实体识别以及正则进行抽取。
2、长安大学问答系统 主要职责:负责问答推荐算法设计 项目简介:通过 Sentence-BERT 技术实现系统对简单问题的自动问答。
3、辅助医疗医疗实体抽取 主要职责:负责抽取医疗实体 项目简介:通过实体识别技术对医疗实体进行抽取。
4、天津智慧信访项目 主要职责:负责整个模块开发设计 项目简介:采用分类模型对信访件实现自动归类推荐,所属部门推荐,采用倒排索引和文本距离计算方法对信访件进行 排重。采用实体识别技术和正则技术对信访数据进行信访人、信访单位、地址、联系方式等非结构化数据进行指标抽取, 形成结构化数据。
5、基于深度学习的分词与词性标注系统 主要职责:细粒度和粗粒度数据整理分析 词性标注算法 预测部分基于 djongo 的 demo 模块编写 项目介绍:实习时的百分点公司的产品,目前准确率已经达到 98%。主要负责分词词性标注部分的算法设计,以及数据 的预处理部分代码编写,预测部分分词解析基于 djongo 的 demo 模块编写。
6、基于朴素贝叶斯和最大熵模型的垃圾广告过滤 职责:算法分析和模型调优、阈值和打分策略编写 项目介绍:实习时的新浪微博的产品,主要目的是对垃圾广告文本进行过滤,通过贝叶斯和最大熵模型整合打分,通过 实践经设验定集合模型的打分阈值结合相应策略来对广告进行过滤
公司的一个项目,主要是一个长安大学的小程序的开发,我主要负责其中问答任务,实现输入问题,然后机器自动回答的功能。
在百分点任职工作的时候,做过百分点的分词和词性标注的工作,采用深度学习lstm-crf模型进行分词和词性标注,目前已经上线