1、精通python和C语言,熟悉Linux开发环境,熟悉shell脚本;
2、熟悉git版本管理系统;
3、三年的自然语言处理研究经验,熟悉分词、词性标注、命名实体识别、问答和对话聊天机器人;
4、熟悉机器学习算法,可快速搭建常用的机器学习算法模型;
5、熟悉TensorFlow深度学习框架,熟悉CNN、RNN等神经网络,能够根据需求快速搭建合适的神经网络模型;
6、熟悉mongodb数据库操作,能快速提供数据的增删改查接口;
7、熟悉solr检索系统;
8、对知识图谱有一定的了解。
1、项目名称:国家自然科学基金:面向社会舆情的中文事件抽取及其可信度计算的研究
主要职责:识别中文事件之间的时序关系
(1)中文事件时序关系语料库的标注与构建;
(2)有采用有监督的方法识别中文事件时序关系;
(3)基于全局优化的中文事件时序关系推理。
2、项目名称:航天五院502所GNC多机多核模拟系统开发
主要职责:开发SPARC指令集架构的模拟器
(1)SPARC处理器核的功能模拟,包括取指、译码、执行以及异常中断的检测与执行操作;
(2)其他模块设备的模拟(存储器、中断控制器、定时器);
(3)使用Socket编程实现后端模拟器与前端Eclipse界面的通信,实现调试信息包的收发与处理。
3、项目名称:垂直领域内的问答和对话系统
主要职责:语料库、问答检索库的构建,以及命名实体识别
(1)设计垂直场景下的对话和问答流程,采用人工和自动的方式生成语料;
(2)使用mongodb数据库构建语料库,包括数据的导入、查询与修改功能;
(3)构建问答检索模块,将标注好的问答对存到solr库中;
(4)搭建命名实体识别系统,规则方法与bi-LSTM+CRF相结合的方法。