Abstract
(资料图)
本文是对卷积神经网络推理过程中权值与激活值的量化的概述。翻译自Google2018年推出的量化白皮书,概要的介绍了神经网络量化的基础知识,适合入门。本人水平有限,仅供参考哈
1. Introduction
边缘端的设备通常计算能力有限、存储空间与功耗有限。边缘设备与云端的数据传输也相对受限。因此急切需求压缩模型大小,加快推理速度及降低功耗。现有的工作(2018年)主要集中在如下方面:
构建高效的神经网络模型
通过量化,剪枝,压缩等方法减小模型大小
低精度的快速推理库: GEMMLOWP [7], Intel MKL-DNN [8] , ARM CMSIS [9], Qualcomm SNPE [10], Nvidia TensorRT [11] and custom hardware for fast inference [12], [13] and [14]
其中,量化,也即降低权重和激活的数值精度,具有如下优点:
可以广泛应用于大多数模型与用途
更小的模型尺寸(model footprint)
更小的运行时存储(working memory and cache)需求
计算速度更快
节省功耗
上述特点都可归结为更快的推理,通常推理速度可以加快2-3倍
more: https://note.youdao.com/s/VV1X4iMD
不定期补充更新。本人水平有限,如有错误敬请指正哈