1. 熟悉linux平台,精通python和C++,lintcode 200+,工程能力强;
2. 具有扎实的计算机视觉理论基础,有opencv编程的项目经验,熟悉颜色空间,形态学,特征提取,模糊等相关算法;
3. 熟悉LR、决策树、贝叶斯、聚类等机器学习算法;
4. 熟悉pytorch框架,对目标检测和GAN网络有深入研究,熟悉yolo系列以及ssd,r-fcn,mask r-cnn,RetinaNet,Cascade r-cnn等目标检测方法,熟悉mobilenet系列, shufflenet系列,pspnet,fcn,deeplab等图像分割方法;了解LSTM及Attention机制;
5. 熟悉模型蒸馏、剪枝、量化等模型压缩方法,熟悉img2col、winograd等常见卷积优化方法。并有将模型压缩并部署在移动端的经验。
手机端实时图像分割 2018.12 - 2019.6
项目简介:在移动端对图片中的天空、水、山、人、建筑、墙、背景进行分割
主要工作:使用包含2W张图片的ADE20K数据集和Cityscapes数据集,结合了旋转、翻转、crop、增强对比度等多种数据增强方法扩大数据集;分割模型选用轻量但高效的ESPNetv2,对网络结构进行了修改,对ESPNetV2添加了多尺度分支,并使用了focal loss作为loss函数进一步优化效果。最终平均mIOU达到了58%。进行模型剪枝和int8量化后,使用ncnn和CoreML转框架并分别迁移到安卓和苹果移动端,在骁龙660上的延迟可以达到100ms,iphone 7上可以达到50ms。
视频超分辨率 2019.2 - 2019.7
项目简介:提升给定视频的分辨率和清晰度,优化视觉观感
主要工作:实现了一个4倍的超分系统,可将低分辨率视频中的的帧转化为高分辨率的图像帧,并且具有更加丰富的细节。数据集方面采用了包含2k分辨率图像的DIV2K数据集和Flickr2K数据集,并通过随机翻转和90°旋转等数据增强方法进一步扩大数据集。我们的模型基于ESRGAN并对其进行改进,使用网络插值对模型的参数进行初始化,完全移除了BN层。使用了感知损失来优化模型的视觉效果,使生成高分辨率图像的主观视觉得分(MOS)和峰值信噪比(PSNR)获得了较大的提升。使用moviepy将图像从低分辨率到高分辨率的过程制作为一个gif图,以更好的观察在视觉观感方面的提升。