1、需求描述
使用鲲鹏920芯片指令完成X86 Intrinsic函数的适配封装
每个函数以inline函数形式实现。
推荐使用内联汇编指令方式实现。
支持编译器GCC4.8.5以上版本。
提供完整的功能对比(对比X86平台)测试报告,功能100%对等,接口能平滑替代。
按照性能测试模型,提供完整的性能对比(对比X86平台)测试报告。
2、人才要求
精通c、c++、熟悉汇编
3、参考样例
FORCE_INLINE __m128i _mm_div_epi16(__m128i a, __m128i b)
{
__m128i res_m128i;
float32x4_t fa[2], fb[2];
float32x4_t res_lo, res_hi;
fa[0] = vcvtq_f32_s32(vmovl_s16(vget_low_s16(a.vect_s16)));
fb[0] = vcvtq_f32_s32(vmovl_s16(vget_low_s16(b.vect_s16)));
fa[1] = vcvtq_f32_s32(vmovl_s16(vget_high_s16(a.vect_s16)));
fb[1] = vcvtq_f32_s32(vmovl_s16(vget_high_s16(b.vect_s16)));
res_lo = vdivq_f32(fa[0], fb[0]);
res_hi = vdivq_f32(fa[1], fb[1]);
res_m128i.vect_s16 = vcombine_s16(vmovn_s32(vcvtq_s32_f32(res_lo)), vmovn_s32(vcvtq_s32_f32(res_hi)));
return res_m128i;
}
4、合作方式
开发方式:远程开发
开发周期:10-15天