对BERT-base模型使用fp4/log4数据类型混合量化,量化后的模型推理准确度下降程度小于1 %。
2.技术内容:
1) 需要量化BERT-base模型中每一个Transformer block(一共12个);
2)每一个Transformer block中,需要量化生成QKV矩阵的权重矩阵WQ/WK/WV和输入token矩阵,输入token的数据类型要求fp8或fp16,权重的数据类型要求fp4;
3)每一个Transformer block中,FFN层、proj层的输入量化为fp8或fp16,权重量化为fp4;
4)每一个Transformer block中的每一个自注意力头的Q、K矩阵和P、V矩阵需要量化,量化要求为Q、K、P、V均为log4数据类型。
5)优先使用pytorch深度学习框架;
6)推理准确度下降程度小于1%;
7)推理准确度的评估应符合公认的BERT量化评估方案;
8)量化后的模型需后续可维护性强