神经网络模型量化

高通在2021年也发了一篇神经网络量化白皮书，包含CNN以及一些NLP任务中用到的神经网络，分析总结了PTO与QAT的最新的一些方案，为取得更好的量化性能进行指导。并且作者基于此，开发了一个量化工具: AIMET

AIMET工具地: GitHub – quic/aimet: AIMET is a library
题目: A White Paper on Neural Network Quantization
作者单位:高通
摘要
虽然神经网络在许多应用领域都取得了前沿进展，但它们往往需要高昂的计算成本。如果想把现代的网络集成到具有严格功耗和计算要求的边缘设备中，减少神经网络推理的功耗和延迟是关键。神经网络量化是实现这些节约的最有效的方法之一，但它所产生的附加噪声会导致精度下降，在本白皮书中，作者介绍了最先进的算法，以减轻量化噪声对网络性能的影响，同时保持低比特权重和激活。首先从硬件出发介绍量化，然后考虑两类主要的算法: 训练后量化(PTO)和量化后训练(QAT)。PTQ 不需要重新训练或标注数据，因此是一种轻量级的量化方法。在大多数情况下，PTO 足以实现接近浮点精度的8位量化。QAT 需要进行微调并访问标注的训练数据，但能够使用具有竞争性结果的较低位量化。对于这两种解决方案，作者都提供基于现有文献和广泛实验的测试流程，从而为常见的深度学习模型和任务提供最先进的性能。