到场:杜伟、李亚洲

AutoML构修加速器优化模子首实验,谷歌发布EfficientNet-EdgeTPU

本年 5 缘垒,谷歌提出了一种应用复合系数同一缩放模子所有维度的新型模子缩放方法,并基于这种模子缩放方法又推出了一种新型 CNN 收集 EfficientNet。今日,谷歌发布推出一种衍生自 EfficientNet 的图像分类模子 EfficientNet-EdgeTPU,通过定制化谷歌 Edge TPU 完成最佳运转。

几十年来,正如摩尔定律所描画的那样,通过缩小芯片内部晶体管的尺寸,盘算机处理器的功用每隔几年就可以晋升一倍。但跟着缩小晶体管尺寸变得越来越艰难,业界将要点放了开辟硬件加速器如许的特定于域的系统架构上面,从而继续晋升盘算才能。

板滞进修范畴尤为云云,需求创立用于神经收集加速的特别架构。但挖苦的是,虽然这些架构数据中心和边沿盘算平台上取得了稳步扩展,但依托它们运转的神经收集却很少定制化从而充沛应用底层硬件。

谷歌 Edge TPU 是一个通过 Coral Dev Boardand 和 USB 加速器供应应开辟职员的低能耗硬件加速器。通过这种模子自定义,Edge TPU 可以供应及时的图像分类功用,同时完成只要数据中心运转尺寸更大、盘算量更重的模子上才干看到的准确率。

运用 AutoML 为 Edge TPU 定制化 EfficientNet

EfficientNet 已被标明可以图像分类义务中完成 SOTA 准确率,同时可以分明低沉模子大小和盘算繁杂度。为了创立旨应用 Edge TPU 加速器架构的 EfficientNet,谷歌调用了 Auto MNAS 框架,并应用 Edge TPU 上高效施行的构修块(building block)扩增了原始 EfficientNet 神经收集架构搜寻空间。

另外,通过周期准确的架贡ィ拟器上运转模子,谷歌还创立和集成了一个「延迟预测器”ィ块,该模块 Edge TPU 施行操作时可以估量模子延迟时间。AutoML MNAS 掌握器施行深化进修算法来搜寻空间,同时试图完成奖励的最大化,这是预测延迟和模子准确率的共有功用。

依据以往的体验,当模子与芯片上内存立室时,Edge TPU 功率服从和功用往往完成最大化。以是,谷歌还改正了奖励函数,从而为满意相关束缚的模子生成更高奖励。

计划定制化 EfficientNet-EdgeTPU 模子的 AutoML 全体流程。

搜寻空间计划

施行上述架构搜寻时必需思索到,EfficientNet 主要依赖深度可分别(depthwise-separable)卷积,这是一种可以因式剖析常规卷积以淘汰参数数目和盘算量的神经收集块。可是,关于某些配备而言,尽管需求更大的盘算量,但常规卷积可以更高效地应用 Edge TPU 架构,施行速率也更速。尽管有可以手动创立一个可以应用差别构修块最尤娱合的收集,但应用这些加速器优化的块来扩增 AutoML 搜寻空间是一种扩展性更强的方法。

3x3 常规卷积(右)较深度可分别卷积(左)的盘算量更大(乘法累加运算),但关于某些输入/输出尺寸来说,因为前者的硬件应用率晋升了 3 倍,以是其 Edge TPU 上的施行速率更速。

另外,从搜寻空间中移除需求改正 Edge TPU 编译器以完备支撑的某些操作,如 swish 非线性和 squeeze-and-excitation 块,自然可以生成易于移植到 Edge TPU 硬件的模子。这些操作一般可以稍稍晋升模子质料,以是通过从搜寻空间删除它们,谷歌有用地指点 AutoML 去发明可交换的收集架构(它们可以对任何潜的质料耗损作出补偿)。

模子外现

前面描画的神经架构搜寻(NAS)生成了基线模子 EfficientNet-EdgeTPU-S,随后运用 EfficientNet 的复合缩放方法对其举行放大,从而取得了-M 和-L 模子。复合缩放方法可以通过挑选输入图像区分率缩放、收集宽度和深度缩放的最佳组合,以构修出更大、更准确的模子。-M 和-L 模子以添加延迟为价钱完成更高的准确性,如下图所示。

通过为 Edge TPU 硬件特别计划的收集架构,EfficientNet-EdgeTPU-S / M / L 模子延迟和准确率上都要比 EfficientNets(B1)、ResNet 更好。特别是 EfficientNet-EdgeTPU-S 完成了更高的精度,且运转速率比 ResNet-50 速 10 倍。

幽默的是,NAS 生成的模子收集的初始部分中十分大宗地运用常规卷积,加速器上施行时,深度可分别卷积往往不如常规卷积有用。这分明特出了一个终究,即优化通用 CPU 模子(比如淘汰操作总数)时一般举行权衡并不必定是硬件加速器的最佳挑选。而且,即使不运用高深的操作,这些模子也可以完成高精度。与其他图像分类模子(如 Inception-resnet-v2 和 Resnet50)比较,EfficientNet-EdgeTPU 模子不光更准确,而且 Edge TPU 上运转速率更速。

这项研讨代外了首次运用 AutoML 构修加速器优化模子的实验。基于 AutoML 的模子定制不光可以扩展到种种硬件加速器,还可以扩展到依赖神经收集的众种差别运用。

从云 TPU 教练到 Edge TPU 安排

Github 上,谷歌发布了 EfficientNet-EdgeTPU 的教练代码和预教练模子。运用 TensorFlow 的后教练量化东西,谷歌将浮点教练模子转换为 Edge TPU 可兼容的整数目化模子。关于这些模子而言,后教练量化的效果十分好,仅发生十分细微的精度耗损(~0.5%)。

  • Github 项目链接:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/edgetpu

  • Coral 网页:https://coral.withgoogle.com/docs/

原文链接:https://ai.googleblog.com/2019/08/efficientnet-edgetpu-creating.html

工程谷歌TPU边沿盘算
1
相关数据
边沿盘算技能

边沿运算(英语:Edge computing),又译为边沿盘算,是一种疏散式运算的架构,将运用顺序、数据材料与效劳的运算,由收集中心节点,移往收集逻辑上的边沿节点来处理。边沿运算将本来完备由中心节点处理大型效劳加以剖析,切割成更小与更容易办理的部分,疏散到边沿节点行止理。边沿节点更接近于用户终端安装,可以加速材料的处理与传送速率,淘汰延迟。这种架构下,材料的剖析与常识的发生,更接近于数据材料的根源,于是更适合处理大数据。

摩尔定律技能

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。实质为:积体电道上可容纳的电晶体数目,约每隔两年便会添加一倍;常常被援用的“18个月”,是由英特尔首席施行官大卫·豪斯所说:估量18个月会将芯片的功用进步一倍。

因式剖析技能

数学中,把一个数学因子(比如数字,众项式,或矩阵)剖析其他数学因子的乘积。比如:整数15可以剖析成两个质数3和5的乘积,一个众项式x^2 -4 可被因式剖析为(x+2)(x-2)。

引荐作品
暂无评论
暂无评论~