ID:301396

康华

NLP算法工程师

  • 公司信息:
  • 深兰科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 可工作日驻场(离职原因)
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 北京
  • 海淀

技术能力

1、利用 Bert、GPT 等大型语言模型实现文本分类、文本聚类、文本摘要、文本生成、聊天机器人、对话系统、机器翻译、实体统一、实体消歧、实体对齐、关系抽取等任务。
2、手写复现逻辑回归、HMM、word2vec、RNN、LSTM、transformer、Bert。
3、基于prompt提示学习解决多任务问题。
4、手动推导 SVM、PCA、GBDT、XGBoost、AdaBoost 等机器学习算法。
5、掌握 Mysql、Neo4j、Elasticsearch、Milvus 等数据库的基本使用。
6、熟练掌握python、pytorch,擅长数据预处理,模型搭建,调参优化。

项目经验

一、基于知识图谱的医疗问答机器人                                                                
 • 数据预处理:设计句子切分算法,将非结构化医疗文本进行长短句切分。
 • 实体与关系抽取:抽取半结构化数据,构建疾病,药品,疾病症状,疾病治疗方法等实体库与之对应的关系,导入neo4j图数据库。
 • 数据标注:采用AC自动机标注医疗文本中的实体,设计实体序列排序算法,解决实体嵌套问题,再加以人工校验。
 • 模型构建:采用BERT+BiLSTM+CRF进行实体识别,设计实体替换,实体随机Mask,实体拼接  等动态加载训练策略。模型在验证集上的F1值为94%。
 • 意图与实体识别:解析query,采用tf-idf进行实体对齐,设计实体的意图归属算法,能够识别并拆解多意图,多实体,连接到neo4j图数据库查询对应的answer。
 • 模型部署:采用flask线上部署,平均响应时间为0.25s。

二、搭建企业知识图谱                                                                                    
 • 数据预处理:从mysql数据库中提取新闻文本、公司名数据,并清洗。
 • 构建实体库:设计公司名简称提取算法,尽可能多去匹配公司名,并做好对应关系,解决实体统 一的问题。
 • 数据标注:采用AC自动机标注新闻文本中的公司名实体,结合SentenceTransformer、jieba词性分析、构建停用词表来解决实体消歧,设计实体序列排序算法,解决实体嵌套问题, 再加以人工校验。
 • NER模型构建:采用BERT+BiLSTM进行实体识别,设计实体替换等动态加载训练策略。模型在人工标注的测试集上F1值为97%。
 • 关系抽取:采用BERT+Casrel的Pipeline模型抽取出控股、供应商、子母公司、竞争、客户等关系。训练时对loss与标签加权,减小标签不均匀的影响。模型在人工标注的测试集上F1值为86%, 比Joint Model高出13%。将公司实体与关系导入到neo4j图数据库。

三、搭建金融领域FAQ问答系统
方案1:
 • 数据预处理:从百度知道上爬取金融领域的问答对,剔除脏数据,筛选出有最佳答案的问答对。   
• 导入数据库:把所有的questions经过SentenceTransformer模型转为句向量,导入milvus向量数据库。
 • 向量召回:解析query,与数据库里的原问题做相似度比对,返回最相似的top20,根据softmax对词性排序加权。筛选出与原query最相近的问题。
 • 线上部署:通过docker部署到云服务器,查询40万条数据平均响应时间为0.32s,比Elasticsearch数据库快0.1s。
方案2:将所有的questions导入ChatGPT,根据用户的query让ChatGPT解析出最相近的问题。

四、课堂人名识别与教师言语情感分类
 • 数据预处理:爬取在线授课信息以及带有情感色彩的文本,设计句子切分算法,将文本进行长短句切分。
 • 数据标注:采用jieba分词识别出人名,将文本标注表扬,批评,鼓励,中性等情感标签。
 • 模型构建:采用Joint-BERT+BiLSTM+CRF进行实体识别与文本分类的联合任务,设计实体替换等动态加载训练策略,增加模型的泛化性。模型在未出现过的人名测试集上的F1值为99%,文本分类的准确率为89%。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    4
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服