从技能到产物,苹果Siri深度进修语音合成技能揭秘

Siri 是一个运用语音合成技能与人类举行交换的私人帮忙。从 iOS 10 开端,苹果曾经 Siri 的语音顶用到了深度进修,iOS 11 中的 Siri 仍然延续这一技能。运用深度进修使得 Siri 的语音变的更自然、流利,更人性化。中文字幕AV对苹果期刊的该技能博客举行了先容,更精细的技能请查看原文。

先容

语音合成,也便是人类声响的人工产物,被广泛运用于从帮忙到游戏、文娱等种种范畴。近来,配合语音识别,语音合成曾经成为了 Siri 如许的语音帮忙不可或缺的一部分。

现在,业内主要运用两种语音合成技能:单位挑选 [1] 和参数合成 [2]。单位挑选语音合成技能具有足够高质料录音时可以合成最高质料的语音,也于是成为商业产物中最常用的语音合成技能。另外,参数合成可以供应高度可了解的、流利的语音,但全体质料略低。于是,语料库较小、低占用的状况下,一般运用参数合成技能。当代的单位挑选系统联合这两种技能的优势,于是被称为混淆系统。混淆单位挑选方法相似于古板的单位挑选技能,但此中运用了参数合成技能来预测挑选的单位。

近期,深度进修对语音范畴挫折庞大,极大的超越了古板的技能,比如隐马尔可夫模子。参数合成技能也从深度进修技能中有所收益。深度进修也使得一种全新的语音合成技能成为了可以,也便是直接音波修模技能(比如 WaveNet)。该技能极有潜力,既能供应单位挑选技能的高质料,又能供应参数挑选技能的灵敏性。然而,这种技能盘算资本极高,对产物而言还不可熟。为了让所有平台的 Siri 语音供应最佳质料,苹果迈出了这一步,配备中的混淆单位挑选系统上运用了深度进修。

苹果深度语音合成技能义务原理

为私人帮忙修立高质料的文本转语音(TTS)系统并非简单的义务。起首,第一个阶段是找到专业的播音人才,她/他的声响既要动听、易于了解,又要契合 Siri 的特征。为了掩盖种种人类语音,我们起首录音棚中记载了 10-20 小时的语音。录制的脚本从音频簿到导航指点,从提示谜底到乐话,所众有。一般来说,这种自然的语音不行像录制的那样运用,因为不行够录制帮忙会说的每一句话。于是,单位挑选 TTS 系统把记载的语音切片成根底元件,比如半音素,然后依据输入文本把它们从头联合,创制全新的语音。实行中,挑选适宜的音素并组合起来并非易事,因为每个音素的声学特征由相邻的音素、语音的韵律所决议,这一般使得语音单位之间不相容。图 1 展现了怎样运用被支解为半音素的数据库合针言音。

图 1:展现了运用半音素举行单位挑选语音合成。合成的发音是「Unit selection synthesis」,图的顶部是运用半音素的标音法。相应的合成波形与光谱图图下部分。竖线划分的语音段是来自数据集的继续语音段,数据集可以包罗一个或众个半音素。

单位挑选 TTS 技能的基本艰难是找到一系列单位(比如,半音素),既要满意输入文本、预测目标音韵,又要可以没有分明过失的状况下组合一同。古板方法上,该流程包罗两部分:前端和后端(睹图 2),尽管当代系统中其界线可以会很模糊。前端的目标是基于原始文本输入供应语音转录和音韵新闻。这包罗将包罗数字、缩写等内的原始文本标准化写成单词,并向每个单词分派语音转录,解析来自文本的句法、音节、单词、重音、分句。要当心,前端高度依赖言语。

图 2:文本转语音合成流程。

运用由文天职析模块创立的符号言语学外征,音韵生成模块预测腔调、音长等声学特征的值。这些值被用于挑选适宜的单位。单位挑选的义务极其繁杂,以是当代的合成器运用板滞进修方法进修文本与语音之间的同等性,然后依据未知文本的特征值预测其语音特征值。这一模块必需求合成器的教练阶段运用大宗的文本和语音数据举行进修。音韵模子输入的是数值言语学特征,比如音素特征、音素语境、音节、词、抖蒿级另外位置特征转换为恰当的数值方式。音韵模子的输出由语音的数值声学特征构成,比如频谱、基频、音素时长。合成阶段,教练的统计模子用于把输入文本特征映照到语音特征,然后用来指点单位挑选后端流程,该流程中声调与音长的适宜度极其主要。

与前端差别,后端一般是言语独立的。它包罗单位挑选和波形拼接部分。当系统承受教练时,运用强制对齐将录制的语音和脚本对齐(运用语音识别声学模子)以使录制的语音数据被支解成独自的语音段。然后运用语音段创立单位数据库。运用主要的新闻,如每个单位的言语状况(linguistic context)和声学特征,将该数据库进一步增强。我们将该数据叫作单位索引(unit index)。运用构修好的单位数据库和指点挑选进程的预测音韵特征,即可语音空间内施行 Viterbi 搜寻,以找到单位合成的最佳道径(睹图 3)。

图 3. 运用 Viterbi 搜寻栅格中寻找单位合成最佳道径。图上方是合成的目标半音素,下面的每个框对应一个独自的单位。Viterbi 搜寻找到的最佳道径为连接被选中单位的线。

该挑选基于两个标准:(1)单位必需遵照目标音韵;(2)任何可以的状况下,单位应当单位边境不发生听觉妨碍的状况下完毕拼接。这两个标准区分叫作目标资本和拼接资本。目标资本是已预测的目标声学特征和从每个单位抽取出的声学特征(存储单位索引中)的区别,而拼接资本是后项单位之间的声学区别(睹图 4)。总资本按照如下公式盘算:

此中 u_n 代外第 n 个单位,N 代外单位的数目,w_t 和 w_c 区分代外目标资本和拼接资本的权重。确定单位的最优序次之后,每个单位波形被拼接,以创立延续的合针言音。

图 4. 基于目标资本和拼接资本的单位挑选方法。

Siri 新声响背后的技能

因为隐马尔可夫模子对声学参数的分布直接修模,以是该模子一般用于对目标预测 [5][6] 的统计修模,于是我们可以应用如 KL 散度那样的函数十分简单地盘算目标资本。然而,基于深度进修的方法一般参数化的语音合成中更加精美,于是我们也期望深度进修的优势能转换到混淆单位挑选合成(hybrid unit selection synthesis)中。

Siri 的 TTS 系统的目标是教练一个基于深度进修的同一模子,该模子能主动并准确地预测数据库中单位的目标资本和拼接资本(concatenation costs)。于是该方法不运用隐马尔可夫模子,而是运用深度混淆密度模子(deep mixture density network /MDN)[7][8] 来预测特征值的分布。MDS 联合了常规的深度神经收集和高斯混淆模子(GMM)。

常规 DNN 是一种输入层和输出层之间有众个躲藏层的人工神经收集。于是如许的深度神经收集才干对输入特征与输出特征之间的繁杂和非线性联系修模。一般深度神经收集运用反向传达算法通过偏向的传达而更新通通 DNN 的权重。比较之下,GMM 运用一系列高斯分布给定输入数据的状况下,再对输出数据的分布举行修模。GMM 一般运用希冀最大化(expectation maximization /EM)算法施行教练。MDN 联合了 DNN 和 GMM 模子的优点,即通过 DNN 对输入和输出之间的繁杂联系举行修模,可是却进步概率分布举措输出(如下图 5)。

图 5:用于对声响特征的均值和方差修模的深度混淆密度收集,输出的声学均值和方差可用于指导单位挑选合成

关于 Siri 来说,我们运用了基于 MDN 同一的目标和拼接模子,该模子能预测语音目标特征(频谱、音高和音长)和拼接资天职布,并指导单位的搜寻。因为 MDN 的分布是一种高斯概率外分布方式,以是我们能运用似然度函数举措目标和拼接资本的耗损函数:

此中 x_i 是第 i 个目标特征,μ_i 为预测均值而 (σ_i)^2 为预测方差。实行的资本盘算中,运用负对数似然函数和移除常数项将变得更加便当,颠末以上处理将简化为以下简单的耗损函数:

此中 w_i 为特征权重。

当我们思索自然言语时,这种方法的优势将变得十分分明。像元音那样,有时分语音特征(如话音素)相当稳定,演变也十分迟缓。而有时分又如有声语音和无声语音的转换那样改造十分疾速。思索到这种改造性,模子需求可以依据这种改造性对参数作出调解,深度 MDN 的做法是模子中运用嵌入方差(variances embedded)。因为预测的方差是依赖于上下文的(context-dependent),以是我们将它们视为资本的主动上下文依赖权重。这对晋升合成质料是极为主要的,因为我们期望目今上下文下盘算目标资本和拼接资本:

此中 w_t 和 w_c 区分为目标和拼接资本权重。着末的公式中,目标资本旨确保合针言音(语谐和音长)中再现音韵。而拼接资本确保了流利的音韵恬静滑的拼接。

运用深度 MDN 对单位的总资本举行评分后,我们施行了一种古板的维特比搜寻(Viterbi search)以寻找单位的最佳道径。然后,我们运用波形相似重叠相加算法(waveform similarity overlap-add/WSOLA)寻得最佳拼接时候,于是天一生滑且延续合针言音。

结论

我们为 Siri 的新声响搭修了一整套基于深度 MDN 的混淆单位挑选 TTS 系统。教练语音数据包罗 48KHz 的频率下采样的起码 15 小时高质料语音。我们接纳了强制对齐的方法将这些语音数据支解为半音素(half-phones),即通过主动语音识别将输入音素序列和从语音信号抽取出的声学特征相立室。这个支解的过车砾据语音数据量发生 1~2 百万的半音素单位。

为了指导单位的挑选进程,我们运用 MDN 架构教练了同一的目标和拼接模子。深度 MDN 的输入由带有少许分外 continuously-valued 特征的二值构成。该特征外示一系列语句中的众元音素(quinphones)新闻(2 个过去的、现的和对后的音素),音节、抖蒿和句子级的新闻,另有分外的特出和重读特征。

输出向量包罗以下声学特征:梅尔倒频谱系数(MFCC)、delta-MFCC、基频(fundamental frequency - f0)和 delta-f0(包罗每个单位的开端和完毕的值),以及每个单位的音长时间。因为我们运用 MDN 举措声学模子,以是输出同样包罗每一个特征的方差,并举措主动上下文依赖权重。

另外,语音区的基本频率全体上高度依赖发音,为了创立语调自然生动的合针言音,我们安排了一个轮回深度 MDN 模子以修模 f0 特征。

教练的深度 MDN 的架构包罗 3 个躲藏层,每一层有 512 个改正线性单位(ReLU)举措非线性激活函数。输入特征和输出特征教练前承受均值和方差归一化处理。最终的单位挑选声响包罗单位数据库(含有每个单位的特征和语音数据)和教练的深度 MDN 模子。新的 TTS 系统的质料优于之前的 Siri 系统。一个 AB 成对主观听力测试中,被试者明晰地挑选基于深度 MDN 的新声响,而不是之前的声响。结果如图 6 所示。质料的改良与 TTS 系统中的众个改良相关,如基于深度 MDN 的后端使得单位挑选和拼接变得更好,采样率更高(22 kHz vs 48 kHz),音频压缩更好。

图 6:AB 成对主观听力测试的结果。新声响要分明地优于以前版本的声响。

因为 TTS 系统需求挪动配备上运转,我们速率、内存运用和占用上运用疾速预选机制、单位剪枝和盘算并行化优化了它的运转时(Runtime)功用。

新声响

关于 IOS 11,我们挑选了一位新的女性声优来晋升 Siri 声响的自然度、特征度及外达才能。选出最佳声优之前,我们评估了成百上千的后选人。选定之后,我们录制了 20 众小时的语音并运用新的深度进修 TTS 技能构修了一个新的 TTS 声响。着末,新的美式英语 Siri 听起来要比以前好。下外包罗少许语音的比照(无法展现,请查看原文)。

更众技能详情请查看论文:Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System[9]

外 1. iOS 11 中的 Siri 新声响示例 

References

[1] A. J. Hunt, A. W. Black. Unit selection in a concatenative speech synthesis system using a large speech database, ICASSP, 1996.

[2] H. Zen, K. Tokuda, A. W. Black. Statistical parametric speech synthesis Speech Communication, Vol. 51, no. 11, pp. 1039-1064, 2009.

[3] S. King, Measuring a decade of progress in Text-to-Speech, Loquens, vol. 1, no. 1, 2006.

[4] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, K. Kavukcuoglu. Wavenet: A generative model for raw audio, arXiv preprint arXiv:1609.03499, 2016.

[5] Y. Qian, F. K. Soong, Z. J. Yan. A Unified Trajectory Tiling Approach to High Quality Speech Rendering, IEEE Transactions on Audio, Speech, and Language Processingv, Vol. 21, no. 2, pp. 280-290, Feb. 2013.

[6] X. Gonzalvo, S. Tazari, C. Chan, M. Becker, A. Gutkin, H. Silen, Recent Advances in Google Real-time HMM-driven Unit Selection Synthesizer, Interspeech, 2016.

[7] C. Bishop. Mixture density networks, Tech. Rep. NCRG/94/004, Neural Computing Research Group. Aston University, 1994.

[8] H. Zen, A. Senior. Deep mixture density networks for acoustic modeling in statistical parametric speech synthesis, ICASSP, 2014.

[9] T. Capes, P. Coles, A. Conkie, L. Golipour, A. Hadjitarkhani, Q. Hu, N. Huddleston, M. Hunt, J. Li, M. Neeracher, K. Prahallad, T. Raitio, R. Rasipuram, G. Townsend, B. Williamson, D. Winarsky, Z. Wu, H. Zhang. Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System, Interspeech, 2017.

初学苹果Siri语音合成表面高斯混淆模子论文DNN
暂无评论
暂无评论~