语言:python/java
掌握:常见的机器学习算法和nlp算法,NLP应用算法(seq2seq/attention/transformer)以及语言模型(elmo/gpt/bert)。数据库(Jena/Gstore/Janusgraph/Titan)和语言(shacl/rdf/rdfs/owl/sparql/gremlin)以及图谱推理(owl推理/shacl推理)、 graph embedding(TransX系列)、三元组抽取(DeepDive)、事理图谱。
携程旅游知识图谱平台搭建
该项目主要搭建携程的旅游知识图谱,作为携程智能客服和携程产品录入检测的后台存储。项目主要针对非结构化数据采用Joint Model抽取三元组,将抽取出的三元组采用transR完成实体对齐,然后转换成graph格式存储在图数据库(Janusgraph),最后采用shacl推理完成shema一致性验证。
短文本内容风控
该项目主要针对短文本进行色情内容识别,每天监控短文本内容超过5kw+,主要分为两种策略进行识别,分别是分类和匹配:
(1) 分类,基准模型采用textcnn,加入了一些batch-normal、highwork等一些小trcik,线上识别准确率90%以上。
(2) 匹配,采用的是compare-aggregate结构,自己设计的模型,分为三层,编码层采用bilstm+self-attention,compare层采用soft-attention层,最后的aggregat层采用多层卷积。线上识别准确率90%以上。
其他NLP工作:分词、句法分析、命名实体识别、文本相似度计算、提取关键词、文本分类、对话系统及模型的优化和维护。
该项目主要搭建携程的旅游知识图谱,作为携程智能客服和携程产品录入检测的后台存储。项目主要针对非结构化数据采用Joint Model抽取三元组,将抽取出的三元组采用transR完成实体对齐,然后转换成graph格式存储在图数据库(Janusgraph),最后采用shacl推理完成s