Deep Learning基于CPU 性能调优(包括框架Tensorflow,Caffe),图优化和op优化;
精通Intel CPU架构及其上性能调优,
软件优化:多核调优,cache优化,矢量化指令优化(avx2/avx512/vnni);
硬件优化:power governor/c-state/p-state/numa优化;
c/c++,python,linux
1.支持互联网头部客户(BBAT)基于CPU的性能优化,基于客户具体使用硬件给出优化方案,满足客户性能提升的要求,尽量充分使用硬件的能力。
基于CPU Cache机制及原理优化程序性能,提高Cache的使用率并减少误用导致性能下降 1) 包括Cache原理介绍 2) 如何profile cache miss 3) 如何relayout内存排布来提高命中
基于CPU多核架构优化程序性能,充分使用多核资源来减少耗时达到性能提升 1) 包括CPU 多核架构原理介绍 2) 如何profile 多核的使用率 3) 针对应用逻辑来进行refine,保证其最大可能的使用多核资源