作家一鸣

百度语音识别新算法准确率晋升超30%,鸿鹄芯片彰显AI落地新打法

本年 7 月,开辟者大会上,百度发布了其 AI 技能上的希望。而短短四个月后,昨日的百度语音才能引擎论坛上,百度语音范畴再次公然了最新的算法效果。同样引人体恤的另有百度鸿鹄芯片的最新希望。

昨日,百度语音才能引擎论坛北京召开。论坛上,百度展现了其语音技能上的最新效果,并公然了语音专用终端芯片——百度鸿鹄的落地状况。另外,中文字幕AV也采访了百度语音首席架构师贾磊。百度通过本次发布阐明,深度进修端到端技能仍然大有开展空间,软件驱动专用芯片计划成 AI 落地新打法。

语音才能 100 亿越日调用,百度大脑势头正劲

论坛开端,百度 CTO 王海峰博士发布了百度语音技能方面的最新效果单。目前,百度语音技能的日调用量已打破 100 亿。

而目前,百度大脑已开辟 AI 才能 228 项,接入开辟者数目超越 150 万,现已成为国内最大的 AI 绽放平台。

王海峰博士还先容了百度 AI 方面的两大目标,即「进化」和「赋能」。通过技能的不时进化,促进 AI 的进一步开展,同时通过赋能协作厂商和开辟者的方法,创制生动的 AI 生态状况。

发布会上,百度语音识别新算法和百度鸿鹄芯片的最新希望最引人注目。它们无疑是对进化和赋能两词最好的解释。

完备端到端,深度进修再次推翻语音识别

论坛上,百度语音首席架构师贾磊先容了百度近一段时间的语音技能打破。此中最受注目标便是百度最新研发的「基于复数 CNN 收集的语音增强和语音识别一体化修模」技能。

现有方法面临瓶颈

目前主要的远场语音识别方案主要将语音识别分为两个方法:数字信号处理和语音识别。精细而言,用户起首需求对语音识别终端举行叫醒,当配备收到信号后,采用声学模子和硬件对波束根源举行定位,定位后再继续接纳目标声响。

接纳到目标声响后,识别终端通过方位新闻,增强目标信号并压制搅扰信号,从而将增强后的信号,输入到语音识别声学修模模块中。

这一方法主要保管两个题目。起首,语音增强算法大都是基于 mse 准绳优化语音的听觉感知,听觉感知变得更分明,并不必定对应识别率晋升。其次,此方法需求起首叫醒语音识别终端,并请求语言者的位置保持固定。假如识别进程中目标信号源发送挪动,或波束偏向上保管噪声,则识别准确率会大幅下降。

深度进修让信号处理和语音识别终成一体

而百度提出的新算法不再需求首次叫醒。识别开端时,目标声响信号直接被众道麦克风输入到模子中,采用复数个 CNN 收集提取声响信号中的众种特征,包罗差别麦克风输入新闻的特征,和跨频率耦合的声学特征。这一进程中直接完成了前端声源定位、波束变成和增强特征提取。特征提取后,直接举行声学修模,并生成最终的文字结果。

据贾磊先容,这一算法从基本上打通了前端的信处理和后端语音识别进程,真正完成了端到端的语音识别办理方案。该算法具有以下优势。其一,这一算法不需求事先依据前一个叫醒词的方本来定人的语言偏向,定出人语言偏向之后,再做波束生成,如许的话,波束生成只可对下一句话的叫醒或者是识别有晋升感化。这个方法是依据目今叫醒词或者是语音指令,一次性的同时做声源定向和波数生成。使得目今这一个次叫醒或者是识别就可以分明晋升。

其次,因为运用 CNN 收集捕捉众种特征,于是可以最洪流平捕捉声响波形中的最实质特征新闻,特别是跨频波形特征等,于是可以模子具有更好的进修才能,功用也更好。

另外,模子最终端到端直接输出文字结果,通过字过失率举行调优,于是可以最大限制上优化模子功用。

因为没有了波束定位的要害,这一方面面临的挑衅于,怎样可以区分众个声响源,并只识别真正的目标声响源。

采访中,贾磊提到,众个声源保管的状况下,该算法可联合语义新闻举行区分。这是因为算法中交融了 SMLTA 架构,可以举行从语音到言语文字的映照,于是可以进修到语义常识。识别进程中,算法可依据语义,挑选准确的 query。

据悉,这一算法的识别准确率(即字过失率)晋升超越 30%。和百度鸿鹄 AI 芯片配合运用的状况下,以致可以晋升更众。

语音转文字方面,百度公然了 SMLTA 算法方面的最新效果。目前该算法可以识别更众方言、中英文混输等场景上也进一步晋升。通过和端到端方法联合,百度已彻底完成了从语音输入、信号处理和增强、语音识别到文字输出的完备端到端深度进修办理方案。

另外,论坛上,贾磊也先容了百度语音合成方面的技能希望。通过 WaveRNN 算法的进一步改良,模子可提取人声中的通用特征,联合被合成者特有的声学特征,最终输出合针言音结果。

目前百度已完成无监视的语音合成模子教练,并运用于百度地图产物上。用户只需求输入 20 句话,就可以运用合针言音举行地图导航等操作。

百度鸿鹄芯片:用硬件落地算法

除了最新的语音技能希望,百度也公然了百度鸿鹄芯片的最新希望。鸿鹄芯片是百度第一款特别针对语音技能范畴开辟的 AI 芯片,是百度促进语音识别才能落地运用的新打法。

语音才能集于一芯

据百度度 AI 技能生态部总司理喻友平先容,百度鸿鹄芯片已集成了语音方面的所有才能,包罗波束定位、语音信号增强、应声处理、降噪、语音识别等方面的所有功用。通通芯片供应了完备的办理方案。

目前,百度鸿鹄芯片已供应了相关的硬件模组,包罗安卓开辟板等。同时,百度也邀请到了协作厂商,展现集成了鸿鹄芯片的智能家电——如创维智能电视等,语音识别赋能后发生的新交互体验。

目前,百度曾经完毕了百度鸿鹄的智能音箱的产物原型。产物运用双麦克构造,将鸿鹄芯片举措语音处理芯片,来处理所有的语音的功用和义务,并最终集成到远场语音交互方案中。

专用芯片让语音识别模子真正落地

为什么要为语音技能计划专用芯片,通过发布可以看到,百度鸿鹄芯片可以满意了落地深度进修算法的请求。起首,深度进修需求大宗的内存占用、盘算并行化才能,更请求芯片的 Cache 足够大,模子的加载速率要够速。ARM 架构的通用芯片这些目标上众有缺乏,只要特别为深度进修计划的架构和指令集可以让模子专用硬件上发挥更好的功用。

同时,比较 ARM 架构芯片,百度鸿鹄芯片可以更加低功耗。百度本次发布的新算法鸿鹄芯片上,待机形态下功耗缺乏 100mW。我国节能家电标准请求待机形态功耗不高于 0.5W,有了百度鸿鹄芯片,种种家电可以集针言音识别才能,也同时满意节能家电的认证标准。

据贾磊先容,本次公然的端到端算法百度鸿鹄芯片上只占用 200K 的内存,可完备完成终端语音识别功用。

如许一来,以百度鸿鹄芯片为载体,以算法为中心,百度完成了通过供应硬件和算法的方法,将语音才能付与协作商和开辟者,完成了全体办理方案的开源绽放。

本次论坛上,百度还先容了其语音生态中的许众新产物和运用,阐清楚百度 AI 生态的日臻成熟。

语音技能落地表示百度新打法

通过本次论坛发布可以看出,百度的 AI 落地新打法已呼之欲出。新技能的开辟上,百度厉密采用深度进修方法,进一步扩展 AI 才能和运用场景。技能的落地要害,则通过软件驱动硬件开展的方法,让专用硬件承接算法模子,最终完成技能赋能。

深度进修促进跨学科交融

道到基于复数 CNN 收集的语音增强和语音识别一体化修模技能时,贾磊外示,这一技能阐清楚深度进修促进跨学科交融方面的才能。

换句话说,通过端到端技能,百度完成了信号处理和语音识别两个部分的交融。前端信号处理的进程中,不再需求思索声学模子和相关的先验常识,从语音信号的输入到输出文字完备模拟人类的认知进程。

采访中贾磊外示,尽管目前深度进修看似进入到了「平台期」,但端到端跨学科整合方面,其仍有很大的开展空间。

软件驱动芯片计划

算法落地赋能方面,可以看到百度用「软件驱动芯片计划」的开展计谋。百度大脑绽放了浩繁 AI 才能的时分,百度依据算法对硬件的请求,定制相应的硬件配备。比较古板的芯片厂商,这些专用芯片都是依据模子的大小、特征和盘算方法特别定制的,只要掌握算法细节的厂商才干够定制开辟。

如许的算法落地方法无疑有着奇特的优势。起首算法可以和硬件深度联合,通过硬件绽放的方法交融到种种场景中,发恍☆佳的功用。

另外,硬件可以供应更为端到端的办理方案,分明低沉算法落地的资本。比如,百度鸿鹄芯片整合了语音识别中的所有才能,供应了归纳的办理方案。如许落地算法的进程中,协作商不再需求体恤种种算法的运转状况,以及和硬件适配的相关题目。

同时,专用芯片的功耗更低,包管模子功用的同时,不会对集成的系统(如家电产物等)带来很高的功耗。

从这些新打法中可以看出百度的保持和立异探究。稳定的是百度对深度进修算法的保持。即时タ前深度进修看似进入平台期,但百度继续促进深度进修以端到端的方法进入新的场景,渐渐替代需求过去古板学科恒久积聚和大宗先验常识的范畴。

与此同时,百度仍探究 AI 落地的新方式。鸿鹄芯片的发布无疑是其以互联网企业的方法进入到芯片计划范畴的新思道。盘绕算法对算力和硬件的需求,定制专用的硬件,让算法更好地发挥功用优势,也同时低沉厂商协作落地 AI 的资本和门槛,完成其让 AI 进化和赋能行业生态的目标。

财产智能芯片语音识别百度
相关数据
数字信号处理技能

数字信号处理(digital signal processing),简称DSP,是指用数学和数字盘算来办理题目。 大学里,数字信号处理常指用数字外示息争决题目的表面和本领;而DSP也是数字信号处理器(digital signal processor)的简称,是一种可编程盘算机芯片,常指用数字外示息争决题目的技能和芯片。

先验常识技能

先验(apriori ;也译作 禀赋)拉丁文中指“来自先前的东西”,或稍稍引申指“体验之前”。近代西方古板中,认为先验指无需体验或先于体验取得的常识。先验常识不依赖于体验,比如,数学式子2+2=4;恒真命题“所有的独身汉必定没有结婚”;以及来自纯粹理性的推测“本体论标明”

语音合成技能

语音合成是通过机械的、电子的方法发生人制语音的技能。TTS技能(又称文语转换技能)附属于语音合成,它是将盘算机本人发生的、或外部输入的文字新闻改变为可以听得懂的、流利的汉语白话输出的技能。

引荐作品
暂无评论
暂无评论~