1、熟练掌握python、sql、shell、R、Java、spark、hive等编程语言,大数据工具,numpy、pandas、matplotlib等数据分析和可视化工具库,具备丰富数据处理、分析、挖掘、分析报告编写的经验
2、熟悉常用的机器学习算法,如LR、SVM、RF、lightgbm、xgb等模型,熟悉sklearn、xgboost、sparkml等机器学习库的使用,有丰富机器学习算法训练、优化经验
3、熟悉cv、nlp和风控常用的深度学习模型(cnn变种、rnn变种、transformer变种等模型),主要使用pytorch进行模型开发、训练和调优,并能独立使用onnx、tensorrt来部署模型
1、图片相关:在不同的项目中使用过全卷积网络、vit多个变种网络等图像分类模型,yolo系列的检测模型,优化预处理模块、模型架构、损失函数等方式大幅提升违规样本的召回和精确率,并降低人审量,并完成模型的tensorrt部署和模型推理服务开发
2、文本相关:过往项目使用或魔改过文本分类(如textcnn、bert变种等),文本匹配(esim、SentenceBert等)模型进行短文本分类和相似度匹配、多语言语义分析等,并完成onnx的模型部署
3、结构化数据:通过挖掘用户的行为特征、风险特征等,构建行为序列模型、图模型,能准确识别出线上的风险用户
公司服务端开发和部署内容不能上传,这是模型服务的检测模块,主要是用来识别是否存在人,然后进行下一步处理,技术涉及检测模型优化、轻量化、模型部署等
一个比赛的项目,通过建模的方式工艺的变量,预测某个产品成分的损失值,从而改进工艺。主要涉及缺失值异常值处理、冗余变量处理,操作变量的建模优化、结果可视化等