熟练掌握大数据分析及相应的spark代码编程,有处理过单日亿级别大数据的聚合分析,熟悉deltalake
数据湖、spark streaming和clickhouse 的大数据生态组合。
有良好的python编程能力,熟练使用pandas、sklearn等,掌握k-means聚类、apriori、SVM和随
机森林等常用机器学习算法。
对大模型的理论有一定的理解和相关实践;对计算机视觉领域中的CNN网络模型有较好的研究和理解,
熟悉物体检测模型yolo系列,人脸检测模型RetinaNet,和人脸识别模型Arcface,能使用pytorch框
架完成深度学习相关代码的编写和模型训练。
在自然语言处理领域,熟悉LSTM和GRU网络,对bert模型的网络结构有一定的了解,能使用bert
预训练模型优化常用的序列标注任务,如关键词提取,命名实体识别和关系识别等。
能将算法集成到web项目中,了解Django+django-rest-framework+jwt+swagger的开发流程
熟悉pythonscrapy爬虫框架,能独立完成html网页爬虫和api爬虫。
熟练MySql数据库和neo4j图数据库,有使用neo4j数据库搭建知识图谱的经验。
熟悉cudaGPU环境的搭建,负责算法组的各种服务器环境的搭建和维护
熟悉linux系统操作,了解vmware虚拟化技术,有使用vmwareesxi+vcenter进行服务器虚拟化的
经验
1、大数据开发部交付线算法开发
负责大数据交付项目的业务需求进行算法开发和维护,熟悉hadoop大数据的技术生态,掌握spark 编程,对spark
的性能优化和内存优化有过大量研究,熟悉如何应对数据倾斜问题,以及调参优化。
负责实现的算法包括:成绩预测(特征选择、分步回归)、网络日志聚类分析(spark、dbscan)、毕业预测(spark、
sklearn 随机森林)、报道预测(关联分析、特征选择、随机森林)、四六级通过率预测(spark、sklearnSVM)、精
准资助等算法
2、智慧教室人脸检测和人脸识别算法
负责录播主机项目人脸识别模块的人脸检测和人脸识别算法的设计和开发,使用pytorch深度学习框架,使用开放的
人脸数据集和项目研发人员采集的客户端的人脸数据集,应用预训练模型重新训练了Retinaface人脸检测模型和
Arcface 人脸识别模型,并将模型转化成onnx以适应嵌入式平台,很好地完成了录播主机项目人脸识别模块的功能需
求。
3、学术知识图谱构建
(1) 课程知识图谱构建
负责研究知识图谱构建的关键技术,针对已标注的课程知识数据集的数据量较小的困境下,进行多次模型训练试验来
确定序列标注任务的训练方法:
1)采用BILSTM+CRF; 2)BILSTM+CNN+CRF;3)bert预训练词向量+BILSTM+CNN+CRF
4)bert 预训练词向量+词性+BILSTM+CNN+CRF
经过以上试验,实现了关键词提取、命名实体识别和关系识别算法的开发,并固化成知识图谱构建工具。
(2) 学术知识图谱构建
基于SciKG和wos数据集,使用neo4, elasticsearch构建学术知识图谱,并在此基础上实现了学术的文献共引,
关键词、作者共现和社区挖掘等算法
4、基于chatglm3的Function Calling 功能开发的业务系统问答机器人
结合公司的业务数据库,使用chatglm3模型 ,利用FunctionCalling功能接入业务查询api,在提供了通用的问答
机器人功能以外,也能为业务人员能快速查阅业务的功能。
5、疫情流调系统及支撑算法的开发
负责西安公安的疫情流调系统的整体数据数据处理框架的系统设计和算法实现,基于手机wifi连接数据、并完成了流
调系统的密接算法的代码研发
大数据开发部交付线算法开发 负责大数据交付项目的业务需求进行算法开发和维护,熟悉hadoop大数据的技术生态,掌握spark 编程,对spark 的性能优化和内存优化有过大量研究,熟悉如何应对数据倾斜问题,以及调参优化。 负责实现的算法包括:成绩预测(特征选择、分步回归)、
结合公司的业务数据库,使用chatglm3模型 ,利用FunctionCalling功能接入业务查询api,在提供了通用的问答 机器人功能以外,也能为业务人员能快速查阅业务的功能