本人就读于西安交通大学,专业为自动化。擅长python、C语言、latex,深度学习。熟练掌握Numpy、Pandas等库,做过人脸识别、医疗图像处理、手术阶段识别任务、目标检测、语音识别等项目。掌握嵌入式系统设计,应用树莓派完成智能小车项目,实现巡线、避障、识别红绿灯等功能。
1.国家级大创项目:本人参与国家级大创项目“深度校园游”,主要负责微信小程序前端及后端开发,使校园游小程序可以实
现访客登记、选择参与路线、听取音频介绍等功能。该项目最终获得国家级优秀奖。在该项目中,本人的主要工作如下:
• 使用 HTML 语言对小程序进行网络框架搭建,包括登记功能模块、景点介绍功能模块
• 使用 CSS 语言对小程序进行布局排版调整,包括实现整体布局优化
• 使用 JavaScript 对小程序的后端逻辑进行搭建,包括实现程序跳转、返回、音频重启等功能
2.新加坡国立大学 Summer Workshop2022:本人参与新加坡国立大学计算机学院 Summer Workshop2022 项目,加入Terence SIM 教授的项目组,完成口罩下人脸识别项目:
• 学习数字图像处理、 OpenCV 等相关知识
• 完成项目“Masked Unmasked Face Recognition”
• 首先进行数据预处理。用 opencv 读取 Georgia Tech Face Database 的照片,并将照片转化为灰度图。利用 dlib 的 face shape detector library 识别人脸点阵,并为该数据集生成其对应戴口罩的数据集
• 对于不戴口罩时的人脸识别任务,我们划分 30 类人脸作为正确数据,剩余 20 类人脸作为错误数据,采用 face recognition package 作为模型,提取人脸的编码,最终得到 92.3% 的准确率;对于戴口罩的人脸识别任务,我们将上述处理好的戴口罩数据集导入模型,规定好人脸的边界并进行编码,最终得到 85% 的准确率
• 最后我们用 celebA face dataset 作为数据集,训练可以识别戴口罩的人的身份的模型。我们首先采用Haar-like + adaboost 的方法,提取人脸中眼睛的位置及特征,再分别采用高斯模糊、 EqualizeHist 得到 Haar-like 特征,再输入进 Adaboost 进行训练,得到 49% 的准确率。在此基础上,我们对模型进行改进,采用 Hog+PCA+SVM 的方法,先分离出人的上半张脸,并展平该半张脸使得眼睛在同一水平线,然后利用高斯模糊提取上半张脸的特征后用 PCA 减少特征维度。最后训练一个 SVM 的分类器,得到 79.9% 的准确率
3.香港科技大学暑期研究:
• 实现对 LAHeart 数据集进行 3d 分割。采用 3D-Unet 模型,将 Dice Loss 和 Cross Entropy Loss 作为损失函数,得到 dice, jaccard, ASD,95HD 分别为: 83.69%, 0.733, 4.447, 16.753
• 实现对 Skin Lession Dataset 的等级分类。采用 SimCLR 模型,实现无监督学习和有监督学习的结合。首先训练无监督学习部分,将 ResNet50 作为 encoder,去掉 pooling layer 后连接一个 MLP layer。训练后保存该模型参数。然后训练有监督学习部分,将 ResNet50 作为 encoder,连接一个 Linear Layer,并将第一部分的参数导入该部分进行训练。最终得到准确率为 82%
• 实现对 Cholec80 数据集进行 phase recognition classification。参考论文 SV-RCNet: Workflow Recognition FromSurgical Videos Using Recurrent Convolutional Network,先预训练 ResNet50 模型,然后将训练好的 ResNet50 作为 feature extractor,提取每一帧的特征。将每三帧连续图像的特征输入进LSTM,训练后得到准确率为 70.34%
• 复现论文 Exploring Segment-level Semantics for Online Phase Recognition from Surgical Videos,并将SAHC 模型应用于 Cholec80 数据集,实现手术视频阶段分类。用 ResNet50 作为空间特征提取器后,经过 RCDL(Residual Casual Dilated Layer) 提取时空特征。然后将视频进行分割后,提取帧之间和segment 直接的联系,再经过 Transformer,得到预测结果。最后通过 Frame-wise Loss 、 Segment-wise Loss 和 Smooth Loss 来修正错误识别,得到最终的 Accuracy、 Prediction、 Recall 和 Jaccar