3年AI图像算法开发经验,主要擅长目标检测、图像识别、文本识别OCR、人脸识别、图像分割等方向算法;
熟悉C++、python编程语言,熟练使用linux开发系统;
具有图像算法项目调研、选型、研发、应用部署全流程开发经验。
性格外向,敢于挑战困难!
项目1:智慧城市电力施工场景智能行为监控
项目简介:项目应用于智慧电力施工场景中,监控摄像头实时采集电力施工现场的视频,然后算法检测识别场景中的人员,判定施工区域的人员是否为工作人员,并对工作人员着装进行规范,以及陌生人闯入报警等相关功能。
负责内容:
1、设计并实现基于视频帧的人脸检测与人脸识别算法。基于多帧加权策略对工作人员身份信息进行判断。
2、针对陌生人检测这种特殊场景,首先对检测到人脸类型进行分类,并只对可信度较高的人脸进行人脸信息监测,最后利用双阈值权衡工作人员与陌生人的比对结果。
3、人脸识别使用arcface-r50网络。为了克服低分辨率人脸识别问题,对训练数据随机抽取30%的样本进行下采样,增加模型对高、低分辨率样本的鲁棒性。
4、人脸检测模型采用以MobileNet为基网络的Retinaface,针对戴口罩人脸漏检问题,另外增加3000余张Kaggle的口罩人脸数据。
5、模型部署加速,将训练好的人脸检测识别pytorch模型使用TensorRT部署和INT8量化,提升模型的推理速度。
项目2:车辆年检报告单购车发票等表单识别
项目简介:主要任务是识别车辆年检时的一些检验报告单、购车发票、身份证和行驶证等表单证件中的文本内容,包含姓名,身份证号,车架号,车辆类型,检验结论等信息,另外还需要识别报告中是否有检验员签字和检测站公章。
文本识别网络采用CNN+BiLSTM+CTC结构。
主要工作:
1、负责设计算法识别检验报告单中的车牌号和车架号信息;识别报告单中灯光、制动等检测项的结果值,并判断数值是否在正常区间;检测报告单中检验人员签字栏是否存在签名,以及报告单中是否盖了检测站公章。
2、模板匹配提升识别效率:对于购车发票等格式固定的表单,为了提升表单识别的效率,设计了模板匹配的优化方法。与直接识别的方法相比,能够明显减少无关文本内容的识别次数,降低单张表单的识别耗时提升系统效率,使用模板匹配方法优化后购车发票处理耗时由约1.52s/张减少到1.29s/张,处理速度提升20%;
3、解决长短条文本识别问题:为了解决宽度过长文本识别准确率较低问题,在caffe和pytorch框架中分别采用重叠子串分割识别法和重写dataset预处理函数的方式优化模型对不同宽度文本内容的识别效果。最终使得长条文本的识别准确率由78.5%提升到99.4%.
4、模型推理多batch加速:针对表单中需要识别的文本条数量较多,识别文本时采用多batch推理加速,进行相关实验权衡显存与速度后将batchsize设置为8时,单条文本识别耗时由6.8ms减少到1.79ms,显存消耗增加200MiB;
5.负责文本识别模型优化迭代,模型训练集130万张数据,测试集10万张数据,测试集准确率99.62%.
该项目是自然场景中的图像分割任务,使用深度学习技术能够智能分割出图像中的所有物体和人的位置,并使用这些信息进行针对性业务开发。
该项目主要应用于人脸检测识别应用场景,能够检测和识别视频或图像中的人脸信息,并根据人脸信息给上层软件进行定制化业务开发。