算法
- 良好的数据结构设计及编码能力, 熟悉c++/Python
- 有深度学习和增强学习研究或应用经验者优先,熟悉RNN, CNN,transformer,bert等深度神经网络结构,了解基础的机器学习算法,及数据预处理、模型训练和预测方法
- numpy,pandas,scikit-learn等数据分析工具, 熟悉Pytorch深度学习框架,有BERT/GPT3等语言模型使用经验
- 有数据挖掘和数据处理经验
工程
熟悉常用的后端开发框架 SQL、MongoDB、Django、Flask、Redis、Celery、Docker等
有爬虫开发经验,熟悉scrapy爬虫框架
近期项目
项目一:
项目介绍:主要通过爬虫并建立数据分析挖掘平台,找到各平台盗版链接,并提供给法务。法务通过协商通知下线或通过法律手段发起维权公诉。
1. 爬虫平台的架构设计与开发
2. 业务抓取策略及方案研究、优化,利用全网爬虫从剧集名称、别名与高危用户三个方面检索可疑侵权对象
3. 爬虫算法策略及反爬机制研究
4. 使用评估系统分析爬取的内容,根据视频时长、渠道播放量与用户数量及行为来判断其为侵权文件的概率及其他数据分析统计,挖掘工作
项目二:
电子病历结构化主要是对医生书写的文本型非结构化数据进行处理,利用规则和自然语言方法从中提取相关知识点,以便用于科研,辅诊,药企药物临床试验等。
1. 事件段落抽取: pointer-net和span-mask的多任务学习机制抽取医疗事件片段
2. 实体/属性抽取: 不存在重叠的实体采取 词典匹配和 bigru+crf抽取,模型迭代采取label-attention模式废弃crf,提高推断策略;构建基于span抽取方式解决传统BIES方式下的实体重叠问题;
1. 后端所有平台开发工作 2. 独立搭建AI环境,负责AI算法模块及算法接口的部署、效果验证,性能测试,GPU显存性能优化。解决模型显存及性能问题,保证模型的高可用,支持重试。
通过实体识别、关系抽取、事件抽取等技术对医疗病历进行深度结构化提取、分析和推理,提炼非结构化数据的价值信息,支持专病库建设、随访招募和数据洞察等;
技术优秀,责任心强