1) 熟悉数据结构, C++, python, mysql, mongodb, neo4j
2) 熟悉机器学习,掌握KNN, decision trees, naive bayes, logistic regression, adaboost; k-means; pca; back propagation, newton's method, coordinate descent等算法,熟练使用scikit-learn
3) 熟悉深度学习,会用MLP, CNN, RNN, Transformer, Word2vec, Seq2Seq, Attention, encoder-decoder, LM, GAN.会用tensorflow, keras, PyTorch
4) 会遗传算法和增强学习,比如DQN, Policy Gradient, Actor critic
5) 熟悉自然语言处理的各个阶段, 熟练使用 jieba, ltp, corenlp, spacy, nltk, gensim, numpy, pandas, matplotlib 等工具包
6) 2015年接触自然语言处理;英语听说读写良好
项目经历
1) latex到sympy的转化
描述:将latex转化为content mathml, 然后将content mathml 转化为sympy, 90.1%的准确率
标签: 数据预处理,表达式树
2) 数学试题和英语试题解析
描述: 设计word模板,解析用户上传的word成数学和英语试题。设计每一题型要抽取的字段,对题目进行预处理,并进行题号推导,题型推导,选项推导,填空空白推导等。
标签: 模板设计, 数据预处理, 题型推断
3) 数学试题标注系统
描述:输入数学试题,自动标记题目考察的知识点和题目难度值,用于题目推荐。当学生做错了某道题目,推荐给学生考点一致,题目文本相似,难度适中的题目给学生。
标签: 数据预处理, word2vec,LSTM
4) 数学试题自动解题
描述:输入数学试题,自动解题
标签:模板匹配, drools规则引擎
5) 属性融合
描述: 对CN-DBpedia的属性进行聚类,比如老婆,妻子等同义属性聚为一类。Pairwise属性相似度计算用到了同义词,翻译,缩略词,word2vec, transE, 属性值枚举相似度,正则相似度,CN-Probase概念相似度
标签: 相似度计算
6) Mention2entity(和同学一起做,我完成模型构建部分)
描述: 利用Elmo进行命名实体识别。比如给定百科词条刘德华和百科概要“又名华仔,华哥”,识别mention华仔和华哥,对应于实体刘德华。
标签: 序列标注,命名实体识别
7) 市民信箱用户画像与服务推荐
描述: 对市民信息进行打标签,并关联相关服务。
标签: 规则系统,基于知识库的规则构建
8) 文本抽取
描述: 从doc docx pptx ppt xlsx xls gif jpg jpeg json html htm pdf png ps rtf tiff tif txt csv格式中抽取文本, 支持扫描pdf和非扫描pdf。支持图片ocr文字纠错。
标签: ocr, 文本纠错
9) 疾病匹配
描述:输入疾病名称,匹配到标准的icd-10疾病名称
标签: 同义词构建,相似词计算
10) 疾病问答系统
描述:输入关于疾病的问题,输出问题的自然回答。
标签: 知识图谱构建,问题解析
11) 深度阅读
描述: 输入一本书,进行书籍链接,实体链接,句子链接。书籍链接会找到与书籍相关的infobox, 图片,实体关系,wordcloud, 电视剧,电影。实体链接会将书中实体链接到知识库。句子链接会将句子链接到相关的解析,赏析,名家评论,图片,翻译,新闻,视频。
标签: 爬虫,实体链接
12) 论文链接
描述: 上传论文,对论文中的文本进行词汇挖掘,词语链接到Wikipedia,并爬取主要搜索引擎进行词语摘要
标签: 词汇挖掘,爬虫,摘要
13) 公式链接
描述: 输入数学公式,将公式链接到Wikipedia。首先,抽取所有wiki词条中的公式,解析表达式,将输入公式与抽取的公式进行相似度比较。主要有字符串相似度和tree edit distance 。
标签:数据预处理,相似度计算
14)表格键值对抽取
描述:从表格从抽取键值对。首先采用规则抽取出key,然后将当前,右边,下边单元格内容进行拼接,预测一个span作为value. 起始位置和终止位置测试集准确度均达到97%。
标签:机器阅读,信息抽取
15)PDF无表格线和有表格线表格抽取
描述:从PDF中抽取无表格线表格和有表格线表格。上传PDF,对每一页利用ResNet进行图片分类,判断是否包含无表格线表格。然后对包含无表格线表格的页面,利用ALBERT进行文本分类,判断每一行是否属于表格,完成表格外框抽取。然后利用文字间隙和语义信息画表格内框线。有表格线表格采用Opencv抽取线条进行表格抽取。合并无表格线表格和有表格线表格结果作为pdf抽表结果。其中无表格线抽表经历了使用U-net进行像素分类,判断每一个点是黑色像素还是白色像素,进行画线;经历了使用Yolov3, Cornernet,Centernet等进行目标检测,采用目标检测的方法进行画矩形框抽取线条;行分类抽取外框和规则抽取内框等三个阶段,其中行分类抽取外框和规则抽取内框抽表结果最好。
标签:图像分类,文本分类,像素分类,目标检测
16) python utils 开发
描述:负责开发python 基础库,提供给全公司python程序员使用。Python utils 库包含dict, list, sequence, string, database, excel, pdf, html等相关的模块。
PDF无表格线和有表格线表格抽取 描述:从PDF中抽取无表格线表格和有表格线表格。上传PDF,对每一页利用ResNet进行图片分类,判断是否包含无表格线表格。然后对包含无表格线表格的页面,利用ALBERT进行文本分类,判断每一行是否属于表格,完成表格外框抽取。然后利用文字间隙
描述: 输入一本书,进行书籍链接,实体链接,句子链接。书籍链接会找到与书籍相关的infobox, 图片,实体关系,wordcloud, 电视剧,电影。实体链接会将书中实体链接到知识库。句子链接会将句子链接到相关的解析,赏析,名家评论,图片,翻译,新闻,视频。 标签: 爬虫,实体