深度进修的黄金伙伴:GPU正重塑盘算方法

跟着神经收集和深度进修研讨的不时深化——特别是语音识别和自然言语处理、图像与方式识别、文本和数据剖析,以及其他繁杂范畴——研讨者们不时寻找新的更好的方法来延迟和扩展盘算才能。

几十年来,这一范畴的黄金标准不停是高功用盘算(HCP)集群,它办理了大宗处理才能的题目,虽然资本有点过高。但这种方法曾经帮帮促进了众个范畴的进步,包罗气候预测、金融效劳,以及能源勘察。

Synced (272).jpg

然而,2012 年,一种新的方法呈现了。伊利诺伊大学的研讨者之前曾经研讨过台式超级盘算机中运用 GPUs 来加速处理义务(如图像重修)的可以性,现众伦众大学的一组盘算机科学家和工程师标清楚一种 GPUs 上运转深度神经收集来极大促进盘算机视觉技能的方法。插上 GPUs(之前主要用图形中)后,盘算神经收集的功用会立即取得庞大晋升,这种晋升反应了盘算机视觉效果的分明改良上。

这是一次革命性进步!

「仅仅几年之后,GPUs 曾经呈现深度进修的中心位置,」加州大学伯克利分校电子工程和盘算机科学系传授 Kurt Keutzer 说到。「GPUs 的运用正成为主流,通过一个运用顺序中运用几十到数百个处理器,GUP 正从基本上改动盘算。」

伊利诺伊大学厄巴纳-香槟分校电子与盘算机工程 Walter J. Sanders III–Advanced Micro Device 的声誉主席 Wen-Mei W. Hwu 也说过,「GPU 是出色的模糊量盘算配备。假如你只要一项义务,就没须要用到 GPUs,因为速率也速不到哪去。可是,假如你有大宗的互相之间独立的义务,用 GPUs 就对了。」

一个深度视角

GPU 架构根源于根底的图形烘托操作,比如给图形加暗影。1999 年,Nvida 推出了 GeForce 256,这是天下上第一个 GPU。简单来说,这个专用的电道——-可内置视频卡或主板中——主导并优化了盘算机内存以加速显示器的烘托速率。本日,GPUs 用更加广泛的配备中,包罗私人盘算机、平板电脑、手机、义务站、电子标示、游戏机,以及嵌入式系统。

然而,「盘算机视觉和深度进修中许众新运用的内存都是有限带宽,」Keutzer 标明道,「这些运用中,运用顺序的速率往往最终取决于它从内存中提取数据以及流入和通过处理器要花众少时间。」

安排 GPU 的一个常常被无视的庞大优势是其 processor-to-memory 的超级带宽。Keutzer points 指出,如许的结果是,「带宽有限的运用中,这个 processor-to-memory 带宽的相对优势直叫—化成超级运用功用。」要害是 GPUs 用更少的电力供应了更速的浮点运算(FLOPs,每秒浮点运算次数)通过支撑 16 位的浮点数扩展了能效优势,比单精度(32 位)或双精度(64 位)浮点数的能效更高。

众核 GPU 要依赖更大宗的 32 位到 64 位如许更简单的处理器内核的大宗安排。比较之下,运用更小的古板的微处理器,一般是 2 位到 4 位到 8 位时,效果怎样会呢?

「运用微处理器的 GPUs 完成了更良好的功用,并为深度神经收集供应了更好的架构支撑。GPUs 深度神经收集上外现出的功用优势渐渐被转化到更众品种的运用中。」Keutzer 说。

本日,一个典范的 GPU 集群包罗了 8 到 16 个 GPU,而像 Keutzer 如许的研讨人院淆实验运用数百个 GPU 超大数据集上同时教练众个深度神经收集,否则将需求几周的教练时间。这个教练需求运转大宗数据通过该系统以让它抵达能办理题目的形态。那时,它大约就可以一个 GPU 或者混淆处理器中运转了。「这不是一次学术教练。」Keutzer 指出。「我们教练用于像主动驾驶汽车这种新运用的神经收集时,就需求如许的速率。」

运用 GPU 正成为主流,通过单个运用中运用众个处理器,能从基本上改动盘算。

GPU 技能现的希望速率远比古板的 CPU 速,依靠强劲的浮点马力和较低的能耗,GPU 的可扩展功用让深度进修和板滞进修义务的服从取得飞速晋升,效果堪比给汽车装上涡轮增压发动机,百度高级研讨员 Bryan Catanzaro 说到。「深度进修不是新颖事物。GPUs 也不是。可是这个范畴盘算才能取得极大晋升和有丰厚数据可供运用之后,才开端真正起航。」

阵势部希望来自 Nvidia,这家公司不时推出更加繁杂的 GPUs,包罗刚推出的专为办理教练和推理这类特别义务的 Pascal 架构。这款最新的 GPU 系统中,Tesla P100 芯片完成了一片硅片上封包 150 亿个晶体管,数目是之前处理器的两倍。

另一个例子,百度正促进言语识别研讨的新前沿。它的「Deep Speech」项目,依赖一个端到端的神经收集,英语和汉语的短音频剪辑中使语音识另外准确度抵达了人类程度。这家公司还探究主动驾驶汽车中的 GPU 技能;它不停研发能北京大街上主动导航的主动驾驶汽车,并做了改动车道、超车、泊车和启动的演习。

同时,微软亚洲的研讨员运用 GPUs 和一种深度神经收集的变体——深度残差收集,来盘算机视觉中的对象分类和识另外义务中完成更高准确度。

谷歌,也运用这些技能来继续改良图像识别算法。前谷歌人工智能研讨员,现 Open AI 研讨室主任 Ilya Sutskever 说到:「神经收集正再起。神经收集和深度进修的中心思念曾经被议论和考虑众年了,可是恰是通用 GPU 的研发才是神经收集和深度进修成功的要害。」

一步超越

「虽然 GPU 技能正深度进修范畴促进到新的前沿,但许众盘算性的挑衅仍然保管。起首,像 GPU 如许的独立顺序化众核配备的高效完成仍然很艰难;而且,这种艰难会跟着众 GPU 并行的加剧而恶化。」Keutzer 说道。

不幸的是,他增补道,「这些配备的许众高效顺序化的专业技能都被限制公司内部,许众已被开辟的技能细节仍未被广泛地运用。」

同样地,Keutzer 认为,关于深度神经收集的计划仍被广泛地描画为「黑科技」,构修一种新型的深度神经收集架构同构修一种新型的微处理器架构相同繁杂。更倒运的是,一朝这种深度神经收集架构被构修,「就会发生许众相似超参数的 knobs,运用教练中时,只要岛镶些 knobs 被合理修立时才会发生应有的准确度。所有的这些变成了这些已知和未知间的常识边境」

「不管是深度神经收集范畴照旧 GPU 编程范畴,具有专业常识的私人都好坏常匮乏的,而那些对两方面都一目了然的人才则是更为稀有。」

另一大挑衅则是了解怎样最高效地运用 GPU。举个例子,百度需求 8-16 个 GPU 去教练一个模子,从而通通运用中抵达 40%-50% 的浮点峰值。「这就意味着外现得效果十分有限。」Catanzaro 说道,「实行是我们需求更大范围地运用 GPU,8 个或 16 个远远不敷,我们可以需求的是 128 个 GPU 并行。」这就需求更好的连接,以及支撑由 32 位浮点支撑到 16 位浮点支撑的才能。Nvidia 的下一代 GPU——Pascal 有可以可以办理这些题目。

另外,另有一大妨碍于让 GPU 更好地同其他 GPU 和 CPU 集成。Hwu 指出,这两品种型的处理器并不常聚集成一同,而且他们之间也很少具有足够高的带宽。这就最终转化成了有限数目标运用和系统运转的才能。

「你十分需求让你的 GPU 具备运转大数据义务的才能;同时,你的 GPU 槐ボ适时暂停使卸载历程比较合算。」Catanzaro 标明道。

现的 Nvidia GPU 保管于差别的芯片上,他们一般通过一个 I/O bus (PCIe) 连接到 CPU 上。这便是它们可以向 GPU 发送大宗义务的一个启事。未来的系统会将 GPU 和 CPU 集成一个同一的包里,而且它能承当更高带宽和更小的损害,以及通过 GPU 和 CPU 来保持共享的同等性。

Keutzer 期望跟着时间的推移,CPU 和 GPU 可以取得更好的集成,这两者间更强的同等性与同步性也随之可以完成。终究上,Nvidia 和 Intel 也都体恤着这一范畴。Keutzer 当心到一种名为 Knight's Landing (KNL) 的新型 Intel 芯片 Xeon Phi 72-core super-computing 处理器中供应了比比皆是的盘算才能,而且,它同时集成了 CPU 和 GPU 的特征。同时,这款芯片还供应了每秒 500 GB processor-to-memory 的带宽需求,这也将腐化 GPU 这一范畴的优势。

Hwu 当心到 KNL 的 72 个核互相都能施行「一个广泛的向量指令(512 字节)。当转化到双重精度(8 字节)和简单精度(4 字节)的时分,向量宽带就将会是 64 和 128。这个层面上,它和 GPU 有着相似的施行模子。」

Keutzer 期望跟着时间的推移,CPU 和 GPU 可以取得更好的集成,这两者间更强的同等性与同步性也随之可以完成。

KNL chip 的编程模子是古板的 x86 模子,以是,Hwu 认为,顺序员们「需求通过 Intel C Compiler 编写代码来使得芯片变得可向量化,或是运用 Intel AVX 向量的实质库函数。」他增补道,GPU 的编程模子需求依托于一个中心的编程模子。

另外,X86 的内核对以是高速缓存的目标构造具有高速缓存的同等性,Hwu 说道,「可是,GPU 的第一层缓存并不分明同等,它会伴跟着少许淘汰的储存带宽。」然而,他增补道,「就深度进修的运用来说,高速缓存的同等性对大大都算法的第一层缓存并没有那么主要。」

未来十年,所有这些的通用性于大的行业状况怎样开展。Hwu 外示,他深信摩尔定律可以超越三代的时间内继续发恍△用,计划师和顺序员也可以从确实离散的 CPU 和 GPU 系统过渡到集成的计划上。

「假如摩尔定律中止运转,它也将分明地影响未来的这些系统,以及人们深度进修和其他义务上运用硬件和软件的方法。」Hwu 指出,「可是,即使我们办理了硬件层面的题目,特定深度进修方面的义务仍需求大宗的标签化数据。某些层面,我们需求标签化数据方面取得打破,从而让我们可以具备从事必方法域教练的才能,特别是主动驾驶范畴。」

未来几年,Sutskever 说道,板滞进修将会广泛地运用到 GPU。「跟着板滞进修的方法不时晋升,它们会被运用到远超本日运用范围的范畴并影响到其他所有方面,从医疗保健、板滞人到金融效劳和用户体验。这些进步依托于更速 GPU 的开展,这也将会使板滞进修具备研讨的才能。」

Adds Catanzaro 说:GPU 是通往未来盘算之门。深度进修令人兴奋是因为当你添加更大都据时,它可以范围化。这一点上,我们会永不满意的寻求更众的数据和盘算资源来办理繁杂题目。拓展盘算极限方面,GPU 技能好坏常主要的一部分。


参考文献

Raina, R., Madhavan, A, and Ng. A.Y.
Large-scale Deep Unsupervised Learning using Graphics Processors, Proceedings of the 26thInternational Conference on Machine Learning, Montreal, Canada, 2009.http://www.machinelearning.org/archive/icml2009/papers/218.pdf

Wu, G., Greathouse, J.L., Lyashevsky, A., Jayasena, N., and Chiou, D.
GPGPU Performance and Power Estimation Using Machine Learning. Electrical and Computer Engineering, The University of Texas at Austin, 21st IEEE International Symposium on High Performance Architecture, 2015. http://hgpu.org/?p=13726

Coates, A., Huval, B., Wang, T., Wu, D.J., Ng, A.Y., and Catanzaro, B.
Deep learning with COTS HPC systems. Proceedings of the 30th International Conference on Machine Learning, Atlanta, Georgia, USA, 2013. JMLR: W&CP volume 28.http://cs.stanford.edu/~acoates/papers/CoatesHuvalWangWuNgCatanzaro_icml2013.pdf

Chen, X., Chang, L., Rodrigues, C.I., Lv, J., Wang, Z., and Hwu, W.
Adaptive Cache Management for Energy-Efficient GPU Computing, MICRO-47 Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture, 343–355, IEEE Computer Society, 2014. http://dl.acm.org/citation.cfm?id=2742190

初学深度进修硬件GPU英伟达财产
暂无评论
暂无评论~