高通在2021年也发了一篇神经网络量化白皮书,包含CNN以及一些NLP任务中用到的神经网络,分析总结了PTO与QAT的最新的一些方案,为取得更好的量化性能进行指导。并且作者基于此,开发了一个量化工具: AIMET

  • AIMET工具地: GitHub – quic/aimet: AIMET is a library
  • 题目: A White Paper on Neural Network Quantization
  • 作者单位:高通
  • 摘要
    虽然神经网络在许多应用领域都取得了前沿进展,但它们往往需要高昂的计算成本。如果想把现代的网络集成到具有严格功耗和计算要求的边缘设备中,减少神经网络推理的功耗和延迟是关键。神经网络量化是实现这些节约的最有效的方法之一,但它所产生的附加噪声会导致精度下降,在本白皮书中,作者介绍了最先进的算法,以减轻量化噪声对网络性能的影响,同时保持低比特权重和激活。首先从硬件出发介绍量化,然后考虑两类主要的算法: 训练后量化(PTO)和量化后训练(QAT)。PTQ 不需要重新训练或标注数据,因此是一种轻量级的量化方法。在大多数情况下,PTO 足以实现接近浮点精度的8位量化。QAT 需要进行微调并访问标注的训练数据,但能够使用具有竞争性结果的较低位量化。对于这两种解决方案,作者都提供基于现有文献和广泛实验的测试流程,从而为常见的深度学习模型和任务提供最先进的性能。

A White Paper on Neural Network Quantization
Neural Network Quantization with AI Model Efficiency To…




打赏作者

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

CAPTCHA