谷歌在2018年发布的深度卷积神经网络量化白皮书,深深的影响着后面的量化相关的工作,现在常用的一些量化策略和方法也都借鉴自这个工作(比如现在很多芯片上支持的量化方法)。比如训练后再进行量化,还是一边训练边量化等等。
- 题目: Quantizing deep convolutional networks for efficient inference: A whitepaper
- 作者单位: 谷歌
- 摘要
作者概述了量化卷积神经网络的技术,用于具有整数权重和激活的推理.- 对于各种CNN架构,每通道权重量化和每层激活量化到8位精确训练后产生的分类精度在浮点网络的2%以内。
- 通过将权重量化为8位,即使不支持8位算法,模型大小也可以减小4倍,这可以通过简单的训练后权重量化来实现。
3.作者对CPU和DSP上量化网络的延迟进行了基准测试,与CPU上的浮点相比,量化实现的速度提高了2x-3x,在具有定点SIMD功能的专业处理器上,如带有HVX的高通ODSP,速度可提高到10倍.
4.量化后训练可以提供进一步的改进,在8位精度下将与浮点的差距减少到1%。量化后训练还允许将权重精度降低到四位,精度损失在2%到10%之间,对于较小的网络,精度下降更高。
5.作者介绍了TensorFlow和TensorFlowLite中用于量化卷积网络的工具
6.作者回顾了量化后训练的最佳实践,以获得量化权重和激活的高准确度
7.作者建议将每通道权重量化和每层激活量化作为硬件加速和内核优化的首选量化方案。还建议,用于优化推理的未来处理器和硬件加速器支持4、8和16位的精度。
Quantizing deep convolutional networks for efficient inference: A whitepaper
打赏作者