机器学习/特征选择/多重线性回归/生存分析/模型选择(BIC/AIC)/xgboost
词向量/bert-embedding/情感分类/意图识别/倒排表/召回/文本相似 度/文本特征工程 /CRF 模型/医疗实体识别;
KBQA系统/意图识别/语义解析/Cypher 图数据库查询
事件抽取/触发词抽取/论元抽取/枚举分类/Paddlepaddle 框架/Ernie 模型;
胃癌和脑癌预后相关甲基化位点挖掘:整合 TCGA 数据库中脑癌和胃癌的甲基化芯片数据和临床数据,挖掘可以进行预后的甲 基化位点,构建一个独立与主流预后因子的预后模型,后续分析证明脑癌的预后位点与免疫机制有关;且构建一套位点挖掘 workflow,解决甲基化芯片位点挖掘中的纬度相关性问题。承担选题立项、数据分析、论文撰写、论文图片绘制。技术:机器 学习/特征选择/多重线性回归/生存分析;
肝脏昼夜节律与 PHx 后再生之间的相互作⽤:在 RNA-seq 数据中检测⼩⿏节律基因,承担数据分析、论文图片绘制、方法部 分论文撰写工作。技术:RNA-Seq 分析流程搭建/多重线性回归/模型选择(BIC/AIC);
脓毒性休克 ICU 感染性休克患者预测分类模型:“大湾区杯”粤港澳 AI4S(AI for Science)竞赛项目,通过分析脓毒性休克患 者在 ICU 的电子健康记录(EHR)数据来预测患者 30 天内的死亡风险。技术:xgboost/特征选择;
豆瓣评论情感分析:通过 NLP 技术预测豆瓣中文电影评论的情感态度。技术:词向量/bert-embedding/情感分类;
基于检索的问答系统:给定一套问答库,通过分析用户问题与题库相似度来回答问题。技术:意图识别/倒排表/召回/文本相似 度;
基于 CRF 的医疗实体识别:使用 CRF 模型从临床文本数据中抽取医疗实体。技术:序列标注系统(BIOES)/文本特征工程 /CRF 模型;
基于知识图谱的问答(KBQA)系统:给定一个金融领域知识图谱,通过解析问题的语义结构来从图数据库中查询答案。技 术:意图识别/语义解析/Cypher 图数据库查询;
句子级事件抽取和篇章级事件抽取:利用 Pipeline 的方式进行篇章级和句子级的金融事件抽取。技术:触发词抽取/论元抽取/ 枚举分类/Paddlepaddle 框架/Ernie 模型;
动手学深度学习习题集编写:参与动手学深度学习习题集编写⼩组,承担“注意力机制”章节的习题解答内容编写。