1. 熟悉数据结构、算法基础理论(分类、聚类、关联分析);
2. 熟练运用OpenCV等常用图像处理库;
3. 熟练运用Caffe、Tensorflow、Keras深度学习框架训练模型,完成图像识别任务:包括分类、目标检测、GAN等;
4. 熟悉Java、Python编程语言,掌握C/C++,了解R,Scala;
5. 具有独立开发Android端图像识别程序和模型压缩经验;
智能音箱唤醒词识别
框架:Tensorflow、kaldi;编程语言:Python、C、C++、shell
算法:分类、GMM-HMM声学模型、n-gram语言模型
项目概述: 实现一个低功耗、低成本、高正确率的唤醒词识别模型
实现:思路1:视为三分类问题,即唤醒词、其他、silence;思路2:视为语音识别问题
难点:压缩模型,使其能部署在智能音箱中。对于思路1,对weight、bias及activitation data做定点化,将浮点数映射为8bit整数,以此来降低计算量并且减少反应时间;对于思路2,声学模型部分删除对识别效果影响较小的特征,减小DNN网络维度和隐层数量,语言模型部分只留下少量与项目相关的词,最终训练出的HCLG由50M缩小到0.3M。
餐厅会员人脸识别系统
框架:Tensorflow、MXNet;编程语言:Python
算法:人脸检测、活体识别、人脸识别
项目概述:某品牌餐饮店有数家实体店,顾客在其中任意一个店,若点餐时注册成为会员,录入人脸信息和支付信息,之后在该品牌所有实体店都可以刷脸支付。
实现:服务端运行人脸识别算法,客户端(Android)运行人脸检测算法,将检测到的人脸图片通过HTTP发送至服务端,得到人脸识别结果。
难点:活体检测模型使用分类算法,在数据量有限的情况下泛化性差,拍摄的摄像头或fake方式变化,准确率下降明显。采用图像风格迁移的思路,提取真脸和假脸的图像风格特征作为区分的依据。
餐厅多摄像头顾客定位系统
框架:Tensorflow;编程语言:Python
算法:人体检测、人体匹配
项目概述:顾客在餐厅门口的点餐机点餐,本系统用门口摄像头拍摄一张图片作为该顾客的标准照;顾客点完餐后,直接进入餐厅落座,本系统使用餐厅内的多个摄像头追踪定位该顾客的位置;当要给该顾客上餐时,本系统返回该顾客的当前位置,方便服务员上餐。
难点:人体特征的提取,使用facenet的思路,用卷积神经网络自动学习区分不同人体的特征,但是由于拍摄角度的变化、人体被餐厅内摆设的遮挡等多种复杂因素,模型匹配效果不佳,于是采用人体追踪替代人体匹配;多个摄像头的协作对于处理器的算力以及网络宽带的要求较高,成本过高。
Alexa智能台灯
框架:Tensorflow、Keras、Amazon Lambda、Alexa Skill、mongoDB;编程语言:Python
算法:OCR、目标检测、手势识别
项目概述:使用亚马逊的echo dot的Alexa语音交互,使用已匹配的高拍仪,完成读书、翻译、扫描收据功能。
实现:自定义Skill,编写AWS Lambda函数,处理接收到不同语音指令进行不同的功能:
1)读书功能:使用高拍仪拍摄照片,提取图片中文档部分,做OCR算法等完成读书功能;并且实时检测手势,一旦检测到“停止”手势,停止读书;
2)扫描收据功能:同读书功能,后续加上提取关键字算法(提取收据的金额、抬头、日期),并保存为excel发送至用户指定邮箱;
3)翻译功能:检测用户的手指尖,找到所指的文字,翻译后返回。
难点:背景和文档颜色相似时使用Mask R-CNN提取文档效果较差,于是配套一张黑色底板;由于收据的格式与文章有较大差异,前后文缺少相关性所以OCR效果不佳,于是计划收集并扩展收据的数据,再训练OCR算法;由于数据集不足并且实际应用变化情况较多,识别指尖效果不准确,考虑转换方案,使用骨骼检测替换Mask R-CNN指尖检测。
图像识别AI算法展示网站
框架:SSM框架、Tensorflow、Pytorch、Caffe;编程语言:Java、Python
算法:人脸性别年龄识别、人脸情绪识别、人脸匹配、黑白图自动上色、运动图像去模糊、图像超分辨率、图像风格迁移
项目概述:建立一个展示多种图像识别AI算法的网站,算法运行在处理能力较强的服务器上,客户端(Web)以HTTP形式向服务端发出请求,得到返回结果。