机器学习和深度学习经典理论及框架(Scikit-Learn、Xgboost、LightGBM、Keras、Tensorflow、 Pytorch等)
网络信息采集(Requests、BeautifulSoup、Scrapy、Selenium等)
数据处理与分析相关技术(Numpy、 Scipy、Pandas、Matplotlib、Seaborn等)
常用数据库,如MongoDB、MySQL、PGSQL 以及 Redis;熟悉 Linux 系统
项目名称:企业司法产品平台建设
项目角色:独立完成裁判文书相关工作
负责内容:
1.参考层次注意力网络(HAN)论文完成裁判文书分块模型,使得裁判文书内容能够结构化展示,并且利于细 粒度信息抽取与正文结构化。
2.基于 BERT-CRF 和规则完成裁判文书深度解析工作,包括当事人、律师信息、判决结果和金额解析等字段, 丰富小微企业知识图谱内容;在案由标准化基础上整理并验证案件串联逻辑;风险标签及风险度规则制定
项目名称:中国银行贷后管理报告自动化评分
项目角色:独立完成
负责内容:
1.结合分组递增规则对字数维度的进行自动化计分;重复度方面,结合相似度算法得出重复率再结合分组递增规则打分。
2.基于 LDA 模型和 TF-IDF 及 TextRank 算法进行内容相关性识别,判断出该篇报告各维度内容是否与其主题紧密相关,然后再结合各统计量以及其分布进行评分。
3.通过 LM计算文本概率值并算出 Perplexity 指标,通过函数压缩或拟合分布的方法得到通顺度评分