蒋思莹作家

AI芯片大战背后

AI不光是最大科技热门,也是未来数十年科技开展趋势。伴跟着这股高潮,AI芯片成为了半导体行业的械犁向,投资者的新宠。AI芯片颠着末2018年的哗闹,2019年取得了重淀。伴跟着AI芯片企业的孕育,7nm工艺也渐渐成熟,这两者众元化运用场景的催化之下,也为墟市供应了更众的AI芯片产物。

人工智能的运用分成两个阶段,一是进修教练阶段,二是推理阶段。教练芯片一般需求通过大宗的数据输入,或接纳增强进修等非监视进修方法,教练出一个繁杂的深度神经收集模子,这此中以英伟达的GPU外现最为特出。推理芯片则是应用教练好的模子,运用新的数据去“推理”出种种结论,此需求也增进GPU、FPGA和ASIC等差别硬件的开展。

颠末几年的开展,许众企业也开端盘绕着AI教练芯片或AI推理芯片睁开了逐鹿。这场大战背后,有几个现象值得体恤。

英特尔对英伟达虎视眈眈

伴跟着人工智能时代的到来,海量数据的盈余,使得AI教练芯片取得了疾速开展。这当中,GPU因其通用性和高功用的优势,被AI教练芯片墟市合承受,据相关数据显示,GPU云端教练墟市上占比高达90%。而提到GPU就不得不提到,GPU行业的传奇——英伟达。

英伟达2006以及2007年,区分推出了Tesla架构以及CUDA系列编程状况,低沉了将GPU用作于通用盘算的难度。2012年,跟着人工智能深度神经收集技能的打破开展,英伟达也依靠其GPU范畴的积聚疾速兴起,股价一道飙升——2015年20美元的股价2018年抵达了292美元的高点。财产的积聚,也为英伟达接下来的开展带来了时机。这可以从英伟达研发上的加入得以表示,英伟达研发加入上不停保持着增加的趋势,2016到2018财年中增加35%,2019财年前两个季度就加入了11.2亿美元,同比大涨36%。从营收上看,据其第三季度财报数据显示,英伟达2020财年Q3营收达30.14亿美元。

英伟达一道高歌大进,也使得其他企业盯上了AI这块大蛋糕。2016年英特尔发布了“以数据为中心”的计谋转型,AI的开展离不开数据,从其计谋转型中,也不难看出英特尔正出力构造AI范畴。举措一家老牌半导体企业,英特尔雄厚的资金力气和技能积聚,为其开展AI芯片奠定了根底。

精细来看,自2016年以后,英特尔就开端延续收购AI芯片企业——2016 年 8 月,英特尔以 4.08 亿美元收购了 Nervana;2019年12月,英特尔 AI 芯片范畴又入手了,公司发布以 20 亿美元收购以色列芯片制制商 Habana Labs。有了 Habana Labs的加持,使得英特尔教练芯片和推理芯片上可以更上一层楼。(Habana Labs的明星产物是两个AI专用芯片:AI 推理芯片 Goya(戈雅)和 AI 教练芯片 Gaudi(高迪)。此中, Gaudi被英国资深芯片工程师James W. Hanlon,评为了目今十大AI教练芯片之一。)

英特尔对AI芯片的未来十分看好。从英特尔发布的新闻来看,2017年,英特尔的AI芯片部分收入达10亿美元;2019年,AI收入估量将抵达35亿美元,这也意味着英特尔的AI营收两年增加了250%。

这种增加率的背后,自然离不开产物的支撑。据先容,2017年英特尔AI收入来主要自于英特尔至强处理器数据中心中的AI运用,而2019年则包罗了其本年最新推出的AI芯片——NNP系列。2019 年 11 月人工智能峰会上,英特尔发布了首款云端 AI 专用芯片 Nervana 神经收集处理器(NNP)系列产物。NNP全称 Nervana Neural Network Processor,这是英特尔推出的第一款面向数据中心客户,针对繁杂深度进修的专用 ASIC 芯片。Nervana NNP 并不是一枚芯片,而是一个芯片家族。据悉,NNP-T用于教练,NNP-I主打推理。

NNP-T

NNP-T采用了16nm FF+制程工艺,有270万个16nm晶体管,硅单方积680平方毫米,60mmx60mm 2.5D封装,包罗24个张量处理器构成的网格。中心频率最高可达1.1GHz,60MB片上存储器,4个8GB的HBM2-2000内存,它运用x16 PCIe 4接口,TDP为150~250W。

NNP-I

NNP-I采用了10nm工艺,基于Ice Lake处理器,数据中心推理义务负载中,它的服从达4.8TOPs/W,功率范围可以10W到50W之间。ResNet50上,NNP-I10W的功率程度上每秒可以完毕3600次推理,每瓦每秒可以处理360张图片。

相较于英特尔,英伟达则挑选本年的11月中低调地发布了其GPU新品——基于Volta Tesla的新变种,Tesla V100s,来捍卫其AI范畴中的位置。据外媒报道显示,配备方面,Tesla V100S具有相同的GV100 GPU,该GPU基于12nm FinFET工艺而打制。标准包罗5120个CUDA内核,640个Tensor内核和32 GB的HBM2内存。即使这些规格与现有的Tesla V100十分相似,可是GPU和内存时钟速率都举行了少许庞大更改。Tesla V100S采用250W计划,300W的TDP下可供应14.75 TFLOP的最大FP32盘算功用。

国内芯片公司蠢蠢欲动

AI新时代的到来,让浩繁企业站了同一同跑线上。这大争之世中,不光有老牌半导体巨头的强势到场,也有少许国产物牌开端初显矛头。同时,我国庞大的电子墟市合带来的数据资源,也为AI教练芯片的开展供应了肥美的土壤。这种状况的驱动下,国产厂商也开端试水教练芯片墟市。

华为曾2018年10月举办了一场中心为AI的大会,2019年8,华为推出了华为昇腾910,该芯片昇腾 910 定位于云端 AI 芯片,着重 AI 教练才能。昇腾910是华为首款采用达芬奇架构的 AI 芯片,基于 7nm 增强版 EUV 工艺,其 AI 核集成了 3D 立方体盘算引擎,可以一个时钟周期内完毕 4096 的乘加运算。据悉,昇腾 910 是目前为止盘算密度最大的单芯片,最大功耗为 350W。据infoq的报道称,最新的测试结果外明:算力方面,昇腾 910 完备抵达了计划规格,即:半精度 (FP16) 算力抵达 256 Tera-FLOPS,整数精度 (INT8) 算力抵达 512 Tera-OPS,主要的是,抵达规格算力所需功耗仅 310W,分明低于计划规格的 350W。2019年10月,昇腾910也被James W. Hanlon评为目今十大AI教练芯片之一。

华为除外,我国互联网巨头也纷纷试水AI教练芯片。人工智能时代之前,这些互联网企业颠末众年的积聚,曾经修立了生态优势。待到深度进修高潮的爆发,这些互联网企业生态中的数据代价开端凸显,而这就需求AI教练芯片。互联网企业跨界涉足AI教练芯片范畴,可以通过资本运作的方法来到场,也可以挑选修立新的部分或子公司,通过硬核技能切入AI教练芯片的逐鹿。

腾讯于2018年8月投资了一家专攻于AI教练芯片的创始企业——燧原科技。此则新闻官宣的20个月后,燧原科技发布了其首款AI教练芯片“邃思”。据悉,邃思DTU主要运用于云端人工智能教练,采用格罗方德12nm FinFET工艺,480平方毫米主芯片上承载141亿个晶体管,算力可达20TFLOPS,最大功耗225W。该芯片基于通用 AI 处理器的计划,具备必定的可编程性,其盘算中心具有 32 个通用独立自助计划的可扩展神经元处理器(SIP),每 8 个 SIP 可以组合成 1 个可扩展智能盘算群(SIC)。据燧原科技先容,邃思 DTU 由 12nm FinFET 工艺打制,集成了 141 亿个晶体管,采用 2.5D 封装,具有 16Gbps 的 PCIe 4.0 接口和 25Gbps 的 ESL 高速互联。

另外,百度也发布了其教练芯片上的最新希望——2018百度AI开辟者大会上,李彦宏发布了中国首款云端AI全功用AI芯片“昆仑”,据悉,昆仑系列芯片将由百度自助研发,此中包罗教练芯片昆仑818-300,推理芯片昆仑818-100。2019年12 月,三星百度官方发布,百度首款 AI 芯片昆仑曾经完毕研发,将由三星代工,最早将于来岁初完成量产。精细来说,昆仑芯片基于百度自助研发的,面向云、边沿和人工智能的神经处理器架构 XPU 和三星的 14nm 工艺技能。算力方面,昆仑芯片支撑PCIe 4.0 x8,供应 512 GBps 的内存带宽, 150 W的功率下完成 260 TOPS 的处理才能;它支撑针对自然言语处理的预教练模子 Ernie,推理速率比古板 GPU/FPGA 加速模子速 3 倍。

推理芯片墟市百家争鸣

相较于教练芯片,推理的墟市门槛相对较低,运用场景也更加广泛。这也使得,许众创始公司推理芯片方面睁开了逐鹿——寒武纪地平线依图科技、平头哥、比特大陆等厂商均于本年推出了相关产物。

乘着AI的春风,国内兴起了一批AI独角兽企业。寒武纪举措国内比较早的一批加入到AI芯片的企业,于2019年推出了“思元”系列两款产物——思元270、思元220。此中,思元220是寒武纪第21届高交会正式发布的边沿AI系列产物。思元220(MLU220)芯片是寒武纪边沿智能盘算范畴产物的代外。据悉,思元 220 是一款特别用于深度进修的 SOC 边沿加速芯片,采用TSMC 16nm工艺,同时采用了FCCSP的封装,尺寸15mmx15mm。客户可以依据实行运用灵敏的挑选运算类型来取得出色的人工智能推理功用。思元220的推出也标记寒武纪云、边、端完成了全方位、立样式的掩盖。

2019年2月27日,AI芯片创始企业地平线发布,公司取得了6亿美元(约合40亿大众币)尊驾的B轮融资,估值达30亿美元,借此,地平线也成为举世估值最高的人工智能芯片独角兽企业。本年10月的深圳安博会上,地平线发布了其新一代AIoT芯片“旭日二代”,这是“旭日”系列的第二款边沿AI推理芯片。据悉,旭日二代集成了地平线第二代 BPU 架构(伯努利架构),边沿端即可完成全视频构造化才能。它的功耗仅2W,算力达4TOPS,其算力应用率高达90%。

依图科技举措我国“AI四小龙”之一,颠末近8年的开展,其产物也被成功运用于智能安防、依图医疗、伶俐金融、伶俐都会、智能硬件等范畴。2019年5月,依图推出了“发布即啥菝”的自研AI芯片求索(QuestCore),这是一款云端AI推理专用芯片。据悉,依图QuestCore运用了16nm工艺,采用SoC办理方案、ARM+ManyCore架构、LPDDR4X内存,而其64道全高清摄像机及时解码、50道视频解析成为备受注目标功用。据先容,举措云端效劳器芯片,求索可以独立运转,不依赖Intel x86 CPU。这也是依图芯片与英伟达GPU、谷歌TPU和其他AI芯片公司研发的AI加速器产物一个很大的差别。

一股挖矿高潮,让比特大陆一举成为最受体恤的科技公司之一。而伴跟着这股高潮事后,比特大陆也开端考虑它的开展之道。家喻户晓,“矿机”芯片主要以ASIC芯片为主,ASIC芯片的盘算才能和盘算服从都直接依据特定的算法的需求举行定制的,以是具有体积小、功耗低、高牢靠性、保密性强、盘算功用高、盘算服从上等优势。而这种优势与AI时代下所需求的芯片不约而同。因此,比特大陆也将目光投向了AI芯片范畴,并推出了算丰系列芯片。2019年9月,比特大陆福州正式发布其第三代AI芯片——都会大脑专用芯片BM1684,该芯片聚焦于云端及边沿运用的人工智能推理。据悉,该芯片采用台积电12nm工艺,功耗16瓦的条件下,FP32 精度算力可抵达2.2TFlops,INT8算力可高达17.6Tops,Winograd卷积加速下INT8算力更晋升至35.2Tops,并集成高清解码和编码算法,完成了低功耗、高功用、全定制,是一颗低功耗、高功用的SoC芯片。

另外,2019年云栖大会上,阿里巴巴也重磅发布了其AI推理芯片——含光800,激起了行业的体恤。据悉,含光800采用台积电12nm制程工艺,含170亿晶体管,支撑PCIe 4.0和单机众卡,本年第四序度开端量产。据官方先容,业界标准的ResNet-50测试中,含光800推理功用抵达78563 IPS,比目前业界最好的AI芯片功用高4倍;能效比500 IPS/W,是第二名的3.3倍。相关媒体报道称,含光 800 是阿里修立平头哥芯片公司后第一款正式流片的芯片,是阿里里巴巴第一次运用了本人的硬件架构,也是互联网公司研发的第一款大芯片。

结语

从上述新闻中看,依据2019年各个企业发布的新产物显示,海外企业AI教练芯片墟市具有必定优势。国内笃志于AI教练芯片的企业相对较少,气力比较雄厚的国内企业确实不约而同地均挑选了教练芯片和推理芯片双道线开展的计谋,更众的本土公司则瞄准了AI推理芯片的开展。

而从2012年AI芯片初现峥嵘到现的8年开展当中,AI早曾经由一个看法渐渐落实到各个场景当中。接下来良好略汰的墟市逐鹿中,这些企业大约将面临着庞大的压力,大约也会未来阅历一番行业并购,但无论怎样这些AI芯片的后续开展仍更令人等候。

半导体行业察看
半导体行业察看

最有深度的半导体新媒体,及时、专业、原创、深度,30万半导体精英体恤!笃志察看举世半导体最新资讯、技能前沿、开展趋势。

财产AI芯片
相关数据
依图科技机构

依图科技是举世极少数具有全栈AI中心自研技能的立异企业,盘算机视觉、语音识别、语义了解、智能计划、AI芯片等范畴抵达举世领先程度,是国内独一具有供应超大范围、繁杂状况下亿级范围都会的智能化运营办理技能才能的AI公司。

https://www.yitutech.com/
英特尔机构

英特尔(NASDAQ: INTC)是举世半导体行业的引颈者,以盘算和通信技能奠定举世立异基石,塑制以数据为中心的未来。我们通过精尖制制的特长,帮帮维护、驱动和连接数十亿配备以及智能互联天下的根底方法 —— 从云、收集到边沿配备以及它们之间的通通,并帮帮办理天下上最艰难的题目和挑衅。

https://www.intel.cn/content/www/cn/zh/homepage.html
相关技能
华为机构

华为创立于1987年,是举世领先的ICT(新闻与通信)根底方法和智能终端供应商,努力于把数字天下带入每私人、每个家庭、每个构造,构修万物互联的智能天下。目前华为有19.4万员工,营业普及170众个国家和地区,效劳30众亿生齿。

https://www.huawei.com/cn/
寒武纪机构

寒武纪科技是举世智能芯片范畴的先行者,主旨是打制种种智能云效劳器、智能终端以及智能板滞人的中心处理器芯片。公司创始人、首席施行官陈天石传授,处理器架构和人工智能范畴深耕十余年,是国表里学术界享有盛誉的出色青年科学家,曾获国家自然科学基金委员会“优青”、CCF-Intel青年学者奖、中国盘算机学会精良博士论文奖等声誉。 团队骨干成员均结业于国内顶尖高校,具有丰厚的芯片计划开辟体验和人工智能研讨体验,从事相关范畴研发的平均时间达七年以上。 寒武纪科技是举世第一个成功流片并具有成熟产物的智能芯片公司,具有终端和效劳器两条产物线。2016年推出的寒武纪1A处理器(Cambricon-1A)是天下首款啥菝深度进修专用途理器,面向智妙手机、安防监控、可衣着配备、无人机和智能驾驶等种种终端配备,运转主流智能算法时功用功耗比厉密超越CPU和GPU,与特斯拉增强型主动辅帮驾驶、IBM Watson等国表里新兴新闻技能的出色代外同时入选第三届天下互联网大会评选的十五项“天下互联网领先科技效果”。目前公司与智能财产的各大上卑鄙企业修立了精良的协作联系。人工智能大爆发的前夜,寒武纪科技的光荣任务是引颈人类社会从新闻时代迈向智能时代,做支撑智能时代的伟大芯片公司。

http://www.cambricon.com
地平线机构

地平线举措嵌入式人工智能举世指导者,努力于供应高功用、低功耗、低资本、完备绽放的嵌入式人工智能办理方案。面向智能驾驶、智能都会和智能商业等运用场景,为众种终端配备装上人工智能“大脑”,让它们具有从感知、交互、了解到计划的智能,让人们的生存更平安、更便捷、更美妙。

http://www.horizon.ai
深度进修技能

深度进修(deep learning)是板滞进修的分支,是一种试图运用包罗繁杂构造或由众重非线性变换构成的众个处理层对数据举行高层笼统的算法。 深度进修是板滞进修中一种基于对数据举行外征进修的算法,至今依鳌有种深度进修框架,如卷积神经收集和深度置信收集和递归神经收集等已被运用盘算机视觉、语音识别、自然言语处理、音频识别与生物新闻学等范畴并获取了极好的效果。

非监视进修技能

非监视式进修是一种板滞进修的方法,并不需求人力来输入标签。它是监视式进修和深化进修等计谋除外的一种挑选。监视式进修中,典范的义务是分类和回归剖析,且需求运用到人工预先准备好的典范(base)。一个常睹的非监视式进修是数据聚类。人工神经收集中,自构造映照(SOM)和顺应性共振表面(ART)则是最常用的非监视式进修。

人工智能技能

学术研讨范畴,人工智能一般指可以感知四周状况并接纳举动以完成最优的可以结果的智能体(intelligent agent)

张量技能

张量是一个可用来外示少许矢量、标量和其他张量之间的线性联系的众线性函数,这些线性联系的基本例子有内积、外积、线性映照以及笛卡儿积。其坐标 维空间内,有 个分量的一种量,此中每个分量都是坐标的函数,而坐标变换时,这些分量也按照某些规矩作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无联系)。 数学里,张量是一种几何实体,或者说广义上的“数目”。张量看法包罗标量、矢量和线性算子。张量可以用坐标系统来外达,记作标量的数组,但它是定义为“不依赖于参照系的挑选的”。张量物理和工程学中很主要。比如扩散张量成像中,外达器官关于水的各个偏向的微分透性的张量可以用来发生大脑的扫描图。工程上最主要的例子可以便是应力张量和应变张量了,它们都是二阶张量,关于一般线性材料他们之间的联系由一个四阶弹性张量来决议。

神经收集技能

(人工)神经收集是一种根源于 20 世纪 50 年代的监视式板滞进修模子,那时分研讨者念象了「感知器(perceptron)」的念法。这一范畴的研讨者一般被称为「勾结主义者(Connectionist)」,因为这种模子模拟了人脑的功用。神经收集模子一般是通过反向传达算法运用梯度下降教练的。目前神经收集有两大主要类型,它们都是前馈神经收集:卷积神经收集(CNN)和轮回神经收集(RNN),此中 RNN 又包罗好坏期记忆(LSTM)、门控轮回单位(GRU)等等。深度进修是一种主要运用于神经收集帮帮其取得更好结果的技能。尽管神经收集主要用于监视进修,但也有少许为无监视进修计划的变体,比如主动编码器和生成对立收集(GAN)。

张量处理器技能

张量处理器(英语:tensor processing unit,缩写:TPU)是Google为板滞进修定制的专用芯片(ASIC),专为Google的深度进修框架TensorFlow而计划。 与图形处理器(GPU)比较,TPU采用低精度(8位)盘算,以低沉每步操作运用的晶体管数目。低沉精度关于深度进修的准确度影响很小,但却可以大幅低沉功耗、加速运算速率。同时,TPU运用了脉动阵列的计划,用来优化矩阵乘法与卷积运算,淘汰I/O操作。另外,TPU还采用了更大的片上内存,以此淘汰对DRAM的拜访,从而更洪流平地晋升功用。

神经元技能

(人工)神经元是一个类比于生物神经元的数学盘算模子,是神经收集的基本构成单位。 关于生物神经收集,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改动这些神经元的电位;神经元的“兴奋”由其电位决议,当它的电位超越一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常睹的神经元模子是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模子”。 这个模子中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值举行比较,着末通过“激活函数”(activation function)发生神经元的输出。

自然言语处理技能

自然言语处理(英语:natural language processing,缩写作 NLP)是人工智能和言语学范畴的分支学科。此范畴议论如那处理及运用自然言语;自然言语认知则是指让电脑“懂”人类的言语。自然言语生成系统把盘算机数据转化为自然言语。自然言语了解系统把自然言语转化为盘算机顺序更易于处理的方式。

深度神经收集技能

深度神经收集(DNN)是深度进修的一种框架,它是一种具备起码一个隐层的神经收集。与浅层神经收集相似,深度神经收集也可认为繁杂非线性系统供应修模,但众出的目标为模子供应了更高的笼统目标,因此进步了模子的才能。

阿里巴巴机构

阿里巴巴收集技能有限公司(简称:阿里巴巴集团)是以曾承当英语教师的马云为首的18人于1999年浙江杭州创立的公司。 阿里巴巴集团策划众项营业,另外也从联系公司的营业和效劳中取得策划商业生态系统上的支援。营业和联系公司的营业包罗:淘宝网、天猫、聚划算、举世速卖通、阿里巴巴国际商业墟市、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟收集等。 2014年9月19日,阿里巴巴集团纽约证券商业所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,举世同步《财产》天下500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018天下品牌500强。

https://www.alibabagroup.com/
相关技能
百度机构

百度是举世最大的中文搜寻引擎,是一家互联网归纳新闻效劳公司,更是举世领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏具有“超链剖析”技能专利,也使中国成为美国、俄罗斯、和韩国除外,举世仅有的4个具有搜寻引擎中心技能的国家之一。

https://www.baidu.com/
三星机构

三星集团是韩国最大的跨国企业集团,同时也是上市企业举世500强,三星集团包罗浩繁的国际部属企业,旗下子公司有:三星电子、三星物产、三星航空、三星人寿保证、雷诺三星汽车等,营业涉及电子、金融、机械、化学等浩繁范畴。 三星集团修立于1938年,由李秉喆兴办。三星集团是家族企业,李氏家族世袭,旗下各个三星财产均为家族财产,并由家族中的其他成员办理,集团指导人已传至 李氏第三代,李健熙为现任集团会长,其子李镕任三星电子副会长。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国范围最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人配合创立,总部位于深圳南山区腾讯大厦。腾讯由即时通信软件起家,营业拓展至社交、文娱、金融、资讯、东西恬静台等差别范畴。目前,腾讯具有中国国内运用人数最众的社交软件腾讯QQ和微信,以及中国国内最大的收集游戏社区腾讯游戏。电子书范畴 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
5G技能

第五代挪动通信系统(5th generation mobile networks),简称5G,是4G系统后的延迟。美国时间2018年6月13日,圣地牙哥3GPP集会订下第一个国际5G标准。因为物理波段的限制,5G 的收集也将会与其他通信技能并用,包罗长间隔的其他古板电信波段。

暂无评论
暂无评论~