擅长领域
自然语言处理:文本处理、分词、词嵌入、word2vec、RNN、LSTM、BERT等
计算机视觉:语义分割、图像分类、目标检测、人脸识别、AIGC、pix2pix, denseNet, nnUNet
机器学习经典算法:SVM、罗辑回归、线性回归、神经网络、决策树、随机森林、集成学习、XGboost, lightGBM
医学影像数据处理:SPM, matlab, 3D slicer, ITKsnip, simpleITK等
时间序列分析
脑科学
基因序列分析
MRI 生成 PET(3D 图像生成算法: cycleGAN、pix2pix)
1)三维 MRI 和 PET 脑部影像数据收集和预处理:配准、标准化、消除个体分布差异; 2)尝试 了两个模型框架,3D-cycleGAN 和 3D-pix2pix,调参无数次,结构相似度一直低于 80%,后来 调整预处理后,性能明显提升;3)训练集验证集数据近千例,最终测试集(几百例)上模型性 能为:均方误差 2.4% 和结构相似度 92%。
文本敏感信息自动识别(自然语言处理: BERT)
1)搭建多人协作标注平台 Doccano,在上万例文本中标注敏感信息(共 19 类,住址、身份信 息、联系方式、财务信息等); 2)利用 google 的 BERT 大语言模型(开源的预训练中文模型, 约 10 亿参数)和标注的文本数据,进行命名实体识别任务的模型训练,由于 BERT 每个文本长 度不超过 128 个字,当时对于较长文本进行了分割,并且对推理结果拼接的处理;3)由于训练 样本属于较垂直的领域,训练样本量较多,选取了较小的学习率,对预训练模型进行微调,最终 各类准确率比历史模型有较大的提升,加上正则化的规则作为后处理,最终平均准确率约 94%。