• 编程语言:了解C/C++、Java、SQL、Shell、Golang、Rust。掌握Python。
• 常用数据库:掌握常用数据库Mysql、Redis、Mongodb等的DDL(数据库定义语言),DML(数据操纵语言)
操作。
• 版本控制工具:熟练掌握Git相关命令。
• 数据结构和算法:掌握常用算法和数据结构。了解基本图算法,如广度优先算法和深度优先算法。
• 大数据框架:了解HDFS、Hive、Spark(Spark SQL,Spark Mlib,Spark Streaming,Pyspark)。了解HiveQL以
及Spark性能优化。
• 机器学习:熟练掌握Numpy、Pandas、Matplotlib、Seaborn、Sklearn框架,掌握常用机器学习算法。多次
参加Kaggle比赛,私榜最好名次达到top3%
• 深度学习:掌握Tensorflow框架,掌握Pytorch框架。了解基本深度学习模型。
• 并行计算:了解基于Cuda,MPI的并行计算语言。
• 隐私计算:熟悉安全多方计算协议,熟悉联邦学习算法,了解隐语,fate等框架。
1. 基于HTTP流量的风险识别:基于HTTP流量数据库采用机器学习聚类算法识别异常IP或者账户,经过多方溯源以及确认为风险IP或者
账户。
2. 岩土工程文本中文命名实体识别:使用Pytorch框架,设计Bert+BIGRU+CRF组合模型,识别岩土工程文本中命名实体,最后其精确率、召
回率和F1值达到了90%左右。