数据分析/机器学习/计算机视觉/爬虫相关:熟练使用python与相关package(numpy, pandas, sklearn, matplotlib, OpenCV, nltk, Pytorch, Pytorch lightning, Keras, dlib, nltk, Spacy, Pillow, streamlit, Stanfordcorenlp,networkit,scrapy etc.) ,熟悉机器学习,深度学习的相关流程与知识,熟练使用爬虫技术
编程语言:python, C(单片机编程为主), C# in Xamarin, objective-C
Face Detection and Demographic Information Extraction
- 通过计算机视觉与机器学习的方法,对于视频/图片中的人脸进行检测,对人脸是否带口罩进行判断并预测年龄与性别。模型现已在公司合作商场中进行测试与使用。
- 数据预处理:编写python脚本对数据集进行标签嵌入文件名;因为没有现存的带年龄性别标签的戴口罩人脸数据集,通过面部特征点的定位为人脸带上口罩进行数据增强生成新数据集,将不同数据集组合生成新的数据集。基于面部特征点,提取面部特征数据(eg.眼睛长宽,眉眼间距etc.)
- 模型搭建与测试:使用FaceAPI (Azure) 作为模型表现的基准线;人脸检测任务基于RetinaFace完成;口罩/年龄/性别预测任务,基于Pytorch构建数据模块,将不同数据集在不同模型结构上训练(Alexnet,Mobilenet,Resnet etc.), 搭建简化版本的Alexnet,CNN组合等不同的模型结构来压缩模型大小并进行结果比较。基于Alexnet与Mobilenet进行改造,完成多任务预测。
Face Mask Detection
- 该项目是作为课程配套实践项目,主要任务是对人脸进行检测并对是否有带口罩进行预测。
- 模型搭建与测试:利用MTCNN(Multi-task Cascaded Convolutional Networks)进行人脸检测与面部特征点预测,搭建神经卷积网络(keras)来对是人脸否戴口罩进行分类预测并获得98%的准确率。
Information Retrieval & Text Mining
- 通过NLP技术对《哈利波特与魔法石》进行文本挖掘。
- 文本挖掘与可视化:使用nltk对文本进行预处理,移除特殊符号与常见词等;对文本中的命名实体(人名,地名,日期etc)进行提取;对人名进行指代消解;基于community detection生成人物关系网络,可视化词云,基于时间生成人物轨迹图。
Query-able System for Explanation
- 项目目标是对传统的黑盒式的系统进行探索,使用户明白为什么模型会给出特定结果。
- 主要职责:在波士顿房价数据集上应用不同的回归模型并寻找规律;从0搭建一个回归模型并嵌入自动微分函子(AD),测试并验证该模型与auto-grad在波士顿房价数据集上的表现;从0搭建逻辑回归模型并对决策边界进行可视化;测试不同数据集在自建神经网络上的表现;测试并解决逻辑回归/自建神经网络模型上的决策跳跃问题。