1.熟悉基本机器学习算法,LR、SVM、Decision tree、Random Forest、GBDT、KMeans等
2.熟悉深度学习网络结构,掌握cnn、rnn等基本的神经网络结构及其实现原理
3.熟悉图像识别、人脸识别(fasterrcnn)、目标检测(Faster-RCNN、SSD、YOLO3)等图像识别算法原理,会使用openCV 图像预处理库
4.熟练使用Windows及linux环境下python开发训练
5.熟练使用python科学计算库,numpy、pandas,matplotlib,FP-Tree数据挖掘
6.熟练使用tensorflow、pytorch深度学习框架
7.熟悉网络爬虫,掌握urllib、requests、scrapy等爬虫工具
8.熟悉深度学习网络:VGG,VGG,DarkNet,ResNeXt ,Densnet,CAN,LSTM,Seq2seq,
word2vec等;
9、熟悉linux环境下模型训练,熟悉数据挖掘。
项目描述:
人脸识别项目是针对工程施工员工进出施工场地的身份识别系统,可以进行员工身份验证,同时对员工进行考勤审核。
项目责任:
1. 负责人脸图片检测、提取
2. 参与了人脸识别模型的调参测试工作
其中人脸图片的检测提取使用tensorflow搭建face_reconition网络进行人脸对齐,使人脸检测准确率达到97.8%,人脸识别部分则使用facenet开源框架完成人脸比对识别,同时由于员工较多,采用提前将样本进行embedding计算并存储,大幅度提高人脸识别速度。
项目名称:文字识别项目
项目描述:
作为华为商城线下销售,商城仓库各种商品参数信息需要导入系统,便于购买及线上查询,过去采用人工导入,时间长而且易出错,现利用文字识别技术进行自动识别文字信息然后上传,方便快捷。
项目责任:
通过检测相机拍摄,调用cv2模块imread,然后将图片resize成标准大小,统一命名。
模型搭建及训练:基于tensorflow框架建立模型。使用、densnet+CTPN算法进行搭建,其中ctpn添加LSTM进行目标分类,提高检测过程准确率,采用深层次卷积神经网络densnet进行提取更多特征,提高文字识别准确率。
项目名称:目标检测项目
项目描述:
某勘测单位在工程招标时候需要进行车流量统计,并根据车辆类型进行分类,为节约人员及物资成本,基于YOLO3开发车辆自动检测分类系统。
项目责任:
数据收集标注:通过告诉公路摄像头拍摄车辆图片,使用matlab,cv2进行标注,生成VOC2007的数据格式,使用pickel函数dump成xml格式b-box priors采用k-means聚类获取。
模型搭建及训练:使用TensorFlow框架。使用YoLoV3算法,darknet53作为主干网络,输出13*13、26*26、52*52三种特征图,并将其反卷积扩充后concatenate起来,采用LeakRelu作为网络的激活函数,在预测前使用logistic对锚框进行目标评测,去掉不必要的锚框,减少计算量,最后使用sigmoid函数进行多标签分类。
聊天机器人
项目描述:
为节约人力成本,面向公司OA平台开发该聊天机器人系统。系统基于seq2seq模型,编码器与解码器均采用多层由LSTM单元构成的网络,并引入Attention对齐机制,能提取更复杂更抽象的变长序列特征,更好的解码输入序列。
职责描述:
数据预处理:构建字典;采用bucket分桶机制,依长度对问答对进行分组,以避免pad引入过多噪音;
模型搭建及训练:使用TensorFlow模块建模。输入层前插入可训练的word embedding层,使字向量更具备语义信息。核心基于含attention机制的seq2seq模型,并加入dropout机制使模型更具鲁棒性。训练模型时利用sampled softmax loss作为损失函数以降低每次梯度更新步骤的计算复杂度;
电子病历的命名实体识别
项目描述:
项目为某智能医疗项目的一部分,主要采用了词向量,IDCNN,RBF技术进行特征提取与51类命名实体的序列标注,该模型F1值达到91%,并使用Flask模块部署至线上。
职责描述:
扩充标注数据:利用爬虫,Jieba分词等技巧,爬取在线诊疗网站上的症状,诊断方式,疾病名,治疗方式等命名实体数据,扩充原有标注数据,该技巧比人工收集,标注数据高效;
数据预处理:利用iobes方法对数据进行长度和边界特征信息的标注;构建字典;构建batch数据;
模型搭建及训练:使用TensorFlow模块,基于词向量,IDCNN,RBF搭建模型。加载预先训练好的字向量,用IDCNN对序列进行4次特征提取,再拼合4次结果作为一个特征,提取序列不同视野范围内的上下文特征,最终用CRF算法进行序列标注。训练并调参,最终保存模型和最新的字向量。