个人的主要研究高性能计算和分布式机器学习技术,包括系统架构,网络优化,以及算法优化等。熟练使用C/C++编程语言,熟悉Caffe,Pytorch,TensorFlow以及MxNet等深度学习的代码和架构。对于分布式系统有深刻理解和丰富经验。
此前,研究端到端的分布式机器学习的性能瓶颈,优化并加速分布式机器学习的性能,提升CPU/GPU的有效计算效率,提升实时在线的分布式机器学习的运行效率,提升云计算的效率。
主要研究在云计算环境下的分布式机器学习的端到端性能瓶颈,提出使用FPGA技术提升数据预处理的效率,提升分布式机器学习的效率。
构建基于BCube拓扑的分布式机器学习框架,使用RDMA技术提升数据中心的网络传输效率,集成到TensorFlow系统中,充分发挥并行能力,提升分布式机器学习的效率。