基于CTC转换器的自动拼写校正端到端语音识别

作者:leyu乐鱼体育发布时间:2021-11-10 00:54

本文摘要:摘要基于CTC(Connectionist Temporal Classification)的端到端语音识别系统为了获得令人满足的效果,通常需要使用基于WFST解码的外部语言模型。这对普通话语音识别更为重要,因为普通话含同音异义词,这会导致许多替换错误。语言模型引入的语言信息将有助于区分这些替换错误。在这项事情中,我们提出了一种基于转换器的拼写校正模型,以此能自动纠正错误,尤其是基于CTC的普通话语音识别系统所发生的替代错误。

乐鱼体育官网登录

摘要基于CTC(Connectionist Temporal Classification)的端到端语音识别系统为了获得令人满足的效果,通常需要使用基于WFST解码的外部语言模型。这对普通话语音识别更为重要,因为普通话含同音异义词,这会导致许多替换错误。语言模型引入的语言信息将有助于区分这些替换错误。在这项事情中,我们提出了一种基于转换器的拼写校正模型,以此能自动纠正错误,尤其是基于CTC的普通话语音识别系统所发生的替代错误。

详细来说,我们研究了使用基于CTC的系统生成的识别效果作为输入,并以真实录音副本作为输出来训练具有编解码器结构的转换器,这与机械翻译很是类似。在一个2万小时的普通话语音识别任务中,效果讲明,所提出的拼写纠正模型的CER(字符错误率)为3.41%,与基于CTC的基线系统划分接纳和不接纳语言模型解码相比,划分提高了22.9%和53.2%。

索引术语:语音识别,拼写校正,CTC,端到端,转换器1.引用传统的基于混淆DNN-HMM的语音识别系统通常由声学模型、词典和语言模型组成。每个模块都是单独训练的,且都有差别的目的,然后在模型推理历程中将其联合在一起。

在最近的研究中,该领域试图通过在所谓的端到端框架中构建语音识别系统来纠正这种不相交的训练问题并简化训练历程。当前两种盛行的方法是CTC和基于注意力的编解码器模型。两种方法都将语音识别看作是一个序列到序列的映射问题,并解决了可变长输入和输出序列的问题。

一方面,CTC使用的中间标签,允许重复标签和空缺标签的泛起,用于识别信息量较少的帧,这使得基于CTC的声学模型能够自动学习语音帧和目的标签之间的对齐。另一方面,基于注意力模型使用注意力机制来实现声学帧和识别字符之间的对齐。

两种方法都不需要帧级训练目的,简化了语音识别系统的训练历程。CTC假设输出标签是条件相互独立的,这可以看作是一个声学模型。

虽然基于CTC的模型可以通过贪婪搜索解码算法直接生成识别效果,可是使用基于WFST的解码在字符或单词级别联合外部语言模型会更好。另一方面,基于注意力的模型与编解码器框架可以配合学习声学、发音和语言模型。因此,人们普遍认为基于注意力模型在没有外部解码的语言模型情况下将比基于CTC的模型获得更好的性能。

然而,基于注意力模型中的语言模型模块仅在转录的音频文本对上举行训练。通过在推理时联合外部语言模型可以实现进一步的革新。

普通话是一种声调语言,具有一种特殊的现象,即同音现象,许多汉字具有相同的发音。因此,替代错误是汉语语音识别系统发生的主要错误。这些替代错误需要语言信息才气有效区分。因此,语言模型是基于CTC的普通话语音识别模型的基础。

如[13]所示,基于CTC的模型划分接纳和不接纳语言模型解码,其性能差距是很是大的。然而,陪同基于CTC的声学模型的语言模型通常是n-gram语言模型,其历史语境信息有限。

使用具有RNN-LM的N-best打分算法,可以获得进一步的革新。在这项事情中,我们提出了基于拼写校正模型的转换器,它能纠正基于CTC语音识别系统发生的错误。详细来说,我们研究了使用基于CTC系统生成的效果作为输入,以实际当地转录作为编解码结构转换器的输出举行训练,这类似于机械翻译。

在推理期间,拼写校正模型将开端识别效果作为输入,使用贪婪搜索算法生成最终效果。我们有观察了种种基于CTC的系统作为前端:差别声学建模单元(音节,2000字,4000字,6000字),差别的优化尺度(CTC,CTC-sMBR)息争码方法(贪婪搜索,WFST搜索)。此外,我们建议扩增多样性训练数据,使用N-best列表和SGDR [19]优化,这将使性能有显著提高。我们评估了一项2万小时的普通话语音识别任务,该任务由约莫2000万个成对的句子组成。

研究效果讲明,所提出的拼写校正模型能使贪婪搜索的CTC系统的字错误率从7.28%提高到4.89%。通过扩展N-best列表作为训练数据,它可以进一步提高到4.21%。作为比力,使用基于WFST的解码与外部词级语言模型的训练的CTC-sMBR系统的CER为4.42%。

此外,通过团结使用基于字的声学建模单元、DFSMN-CTC-sMBR声学模型、基于WFST的解码和N-best数据扩展,所提出的拼写纠正模型可以实现CER为3.41%,相对提高22.9%。我们的分析讲明,基于转换器的拼写纠正模型能够使用句子级的语言信息,显著降低识别效果中的替换错误。

2.相关事情识别错误的自动校正不仅对提高ASR系统的性能至关重要,而且对制止错误向后处置惩罚(如机械翻译、自然语言处置惩罚)的流传也至关重要。[20]概述了以前关于ASR纠错的事情。然而,大多数研究仅限于检测错误[21,22,23],且很少有研究涉及ASR误差的校正历程。

在[24]中,使用共现分析方法建设了ASR误差检测器和校正器。[25]提出了一种基于Microsoft N-gram数据集的ASR后期编辑纠错方法。最近,[26,27]提出使用基于注意力的序列到序列模型自动纠正ASR错误,这与我们的事情很是相似。3.我们的方法图1展示了所提出的方法的整个系统,它由三个部门组成:监听器,解码器和拼写器。

对于监听器,我们使用基于DFSMN-CTC-sMBR [15]的声学模型。对于解码器,在给定监听器生成的概率序列的情况下,基于解码计谋生成开端的识别效果,对贪婪搜索[10]和WFST搜索举行了比力。此外,我们还研究了如何使用候选N-best扩展开端识别效果的多样性。

最后,解码器发生的输出用于训练基于转换器的拼写器。3.1 监听器3.1.1 DFSMN-CTC-SMBRDFSMN[28]是一种革新的FSMN[29]结构,它能够通过引入跳过毗连来构建极深的体系结构。如图2所示,它是一个DFSMN,包罗10个DFSMN组件,然后是两个全毗连的ReLU层、一个线性层和一个softmax输出层。对于基于CTC的声学模型,softmax输出对应于声学模型单元和空缺单元。

DFSMN中的关键元素是可学习的类FIR存储块,用于将长上下文信息编码为牢固巨细的表现。因此,DFSMN能够在不使用循环反馈的情况下对一连信号中的恒久依赖性举行建模。l-th内存块中的操作接纳以下形式:这里,表现线性投影层的输出,表现存储块的输出。

和 划分记载了存储块的回首顺序和先行顺序。s1是回望滤波器的步长因子,s2是超前滤波器的步长因子。

CTC [10]是序列标志问题的损失函数,其通已往除定时和对齐信息将具有定时信息的标签序列转换为较短的标签序列。主要思想是在训练期间引入分外的CTC空缺( - )标签,然后移除空缺标签并合并重复标签以在解码期间获得唯一的相应序列。

对于一组目的标签,Ω及其扩展CTC目的集界说为。给定输入序列x及其对应的输出标签序列y。CTC路径,π界说为Ω上的序列其中T是输入序列x的长度。

标志序列y可以由一组所有可能的CTC路径表现,其被映射到具有序列到序列映射函数F的y,。因此,给定输入x的参考标志序列y的对数似然可以被盘算为所有可能CTC路径的概率的荟萃:然后可以通过最小化最大似然预计来举行模型训练。此外,使用序列级判别训练准则,如sMBR准则等,可以进一步优化CTC训练后的声学模型[30,28]。

3.1.2 声学建模单元在[15]中,研究了以CI-IF、CD-IF、音节和混淆字符-音节为建模单元的DFSMN-CTC-sMBR声学模型在普通话语音识别中的性能。实验效果讲明,混淆高频汉字和音节的混淆字音节建模单元是汉语语音识此外最佳选择。对于混淆字符音节,将低频字符映射到音节中来处置惩罚OOV问题。

在这项事情中,我们不把低频字符映射成音节,而是把它们映射成具有相同发音的高频字符。因此,我们提出了一个纯粹的基于汉字的建模单元,没有OOV用于普通话语音识别。详细而言,我们将前2000、4000和6000个汉字作为声学建模单元,划分表现为char- 2k、char-4k和char-6k。

在我们的文本数据集中,笼罩率划分为95.58%、99.54%和99.86%。3.2 解码器3.2.1 贪婪搜索对基于贪婪搜索[10]的解码,选择每个时间步的最可能符号作为输出。

最佳CTC路径可以用如下公式生成:此外,CTC路径可以通过映射函数F映射到令牌序列。对于基于CTC声学模型的汉字单元,令牌序列是最终识别效果。对于音节或其他建模单元,它仍然需要另一个映射函数。3.2.2 WFST搜索在[12]中提出了一种基于WFST的译码方法,该方法能够有效地将词汇和语言模型联合到CTC译码中。

搜索图由语言模型WFST G、词汇表WFST L和令牌WFST T组成。令牌WFST T将一系列帧级CTC标签映射到单个词汇单元。

FST操作的总体顺序(oder/order)为:其中o、det、min划分表现组成、确定和最小化。搜索图S编码从语音帧上发出的CTC标签序列到最终的转录的映射。然后使用波束搜索从搜索图中导出最佳解码路径。

3.2.3 N-best数据扩展对于贪婪搜索和基于WFST搜索的解码,我们通常将最佳路径作为识别效果。在我们的事情中,我们发现训练数据的多样性对拼写校正模型的性能很重要。

因此,我们研究使用N-best列表来扩展训练数据的多样性。对基于WFST的解码,我们可以轻松地从解码点阵中获得前N个路径。而对基于贪婪搜索的解码,我们提出了一种基于阈值的路径保留方法。在每个时间步骤,除了保留具有最高后验概率(p1)的令牌之外,我们还基于两个阈值(upper_th; lower_th)判断是否保留第二令牌(后验概率,p2)。

如果lower_th <p1 <upper_th且lower_th <p2,我们将保留两个令牌。否则,我们只保留前一个令牌。基于差别的阈值,我们将生成差别的CTC路径,这些路径可以使用公式(4)进一步映射到令牌序列。

leyu乐鱼体育

在我们的事情中,我们还研究使用仅文本数据的数据扩充来扩展训练数据。我们实验凭据概率漫衍向原始文本添加插入,删除和替换错误。不幸的是,这种方法效果不佳。

我们怀疑结构的错误不能真正模拟声学模型发生的错误类型。3.3拼写器对于拼写校正模型(拼写器),我们使用具有编码 - 解码器架构的转换器,这与[18]中的机械翻译模型很是相似。基于CTC的前端声学模型,接纳差别的解码和数据扩展方法,获得开端的识别效果作为输入,并以真实录音副本作为输出,对拼写器举行训练。

我们使用OpenNMT工具包[31]来训练具有默认设置的基于Transformer的拼写器。特别地,我们比力了两种转换器结构,即小转换器和大转换器。详细设置如表1所示。

4.实验4.1 实验装置我们在大规模普通话语音识别任务上举行实验,该任务包罗约莫2万小时的训练数据和约莫2000万个句子。测试集包罗约莫10小时的数据用于评估所有模型的性能。所有实验中使用的声学特性都是在25ms窗长上以10ms帧移盘算的80维log-mel滤波器组(FBK)能量。我们将一连的帧叠加在一个5(2+1+2)的上下文窗口中,生成400维的特性,然后将输入帧率下采样到30ms。

在基于WFST的解码中,使用了一种经由文本数据训练的删减三元语言模型。凭据字错误率(CER)举行评估。

对于所有的实验,我们使用与[32]相同的DFSMN架构。基于CTC的声学模型使用16个GPU举行漫衍式训练,基于转换器的拼写器使用2个GPU举行训练。4.2 CTC基线系统表2中显示了具有差别声学建模单元息争码方法的种种基于CTC的基线ASR系统的性能。

基于CTC的WFST搜索模型比贪婪搜索模型的性能要好得多,说明晰语言信息的重要性。基于汉字建模单元的CTC模型具有差别的字符数(2k、4k、6k),在使用基于WFST的解码时可以到达相似的性能,均优于基于音节的CTC模型。然而,当使用贪婪搜索举行解码时,基于char4k和char6k的CTC模型显着优于基于char2k的CTC模型。这一实验效果也说明晰语言信息的重要性。

在sMBR训练中,我们发现基于WFST的译码提高了性能,而基于贪婪搜索的译码降低了性能。这是由于训练息争码之间的不匹配,因为基于sMBR的训练使用基于WFST的解码来生成训练格。4.3 带拼写器的贪婪搜索CTC首先,我们使用基于贪婪搜索的解码来评估表2中基线CTC模型输出训练的拼写者的体现。

表3和表2中exp2和exp3的实验效果的比力讲明,良好的开端识别效果将导致更好的最终效果。此外,训练数据的数量对性能至关重要。如表3所示,将训练数据从100万(1M)句增加到2000(20M)万句,相对提高20%以上。因此,我们也研究了如何在这项事情中扩展训练数据。

由于基于转换器的大型拼写器性能优于小型拼写器,我们将在接下来的实验中使用大型拼写器。在3.2.3节中,我们引入了基于阈值的数据扩展方法,用于基于CTC的声学模型和贪婪搜索。

在该实验中,我们使用表3中具有差别阈值的基线模型来生成种种训练数据,表现为D(AM upper_th lower_th)。尤其,我们使用CTC模型(exp3)和CTC-sMBR模型(exp4)生成六个数据集,表现为D1(CTC 1.0 1.0),D2(CTC 0.5 0.1),D3(CTC 0.6 0.1),D4(CTC- sMBR 1.0 1.0),D5(CTC-sMBR 0.5 0.3),D6(CTC-sMBR 0.6 0.3)。差别的数据设置和实验效果如表4所示。受SGDR[19]的启发,我们建议用拼写器训练4遍,并在每次通事后举行重置。

每次通过的训练步骤由训练数据量确定。对于模型推理,我们使用基于CTC的模型的效果和贪婪搜索作为输入,并通过使用贪婪搜索生成最终识别效果。

效果讲明,该优化方法将实现更好的收敛性能。更重要的是,纵然使用CTC-sMBR模型生成的训练数据,数据扩展也将显着提高拼写器的性能。效果,我们可以实现4.21%的字符错误率(CER),相对于基线贪心搜索解码CTC模型(表4.2中的exp3)有42.17%的相对革新。它也可以优于使用基于WFSTb解码的外部语言模型解码的CTC-sMBR模型。

4.4 WFST用拼写器搜索CTC在本实验中,我们使用DFSMN-CTC-sMBR监听器(表4.2中的exp4)和基于WFST的解码器来生成开端识别效果,然后将其与地面实况转录配对以训练拼写器。我们还使用解码格中的N最佳列表扩展训练数据。

特别地,我们保留了导致三个训练集的前1,5和10路径,表现为N-best(1),N-best(5)和N-best(10)。这三个训练集划分包罗约莫2000万(20M),55M和84M的句子。我们在表5中列出了实验设置和效果。

在推理期间,来自基于WFST的解码器的最佳路径被馈送到拼写器中以通过贪婪搜索生成最终识别效果。实验结论与第3.4节中基于贪婪搜索CTC的实验相同,即基于N-best的数据扩展方法和基于SGDR的多遍训练都可以显着提高性能。最终,用N-best(10)训练集训练的拼写器的CER到达3.41%,而基于WFST的解码的基线DFSMN-CTC-sMBR系统的为4.42%(表2)。4.5 分析为了明白拼写器的作用,如图3所示,我们绘制了有拼写器和没有拼写器的系统识别效果中的插入,删除和替换错误的数量。

效果讲明,无论是否使用外部语言模型举行解码,拼写器都可以自动纠正前端监听器所发生的许多替换错误。图4显示了测试集中的一些代表性示例。

效果讲明,拼写器能够使用句子层面的语言信息,从训练集中学习知识库,这有助于区分普通话中的同音词。此外,我们还对拼写器举行了广泛的评估。图5显示了13个测试集中有和没有拼写器的基线DFSMN-CTC-sMBR系统的性能。

我们将测试集与基线系统的CER(%)从高到低排序。效果讲明,通常基线越好,使用拼写器就可以获得越多的性能提升。

这是因为拼写者需要使用上下文信息。如果原始识别效果中存在许多错误,则会增加纠错的难度。5.总结在这项事情中,我们提出了一种基于转换器的拼写校正模型,该模型具有编码 - 解码器架构,可自动校正基于CTC的语音识别系统所发生的错误。

实验效果讲明,拼写器能够使用句子级语言信息,有助于显着淘汰识别效果中的替换误差。此外,我们建议使用基于N-best的数据扩展方法扩展训练数据的多样性,从而获得凌驾10%的相对革新。在一个2万小时的普通话语音识别任务中,效果讲明,所提出的拼写纠正模型的误码率为3.41%,相对于划分使用和不使用语言模型解码的基于CTC的基准系统,划分提高了22.9%和53.2%。至于以后的事情,我们将研究如何使用纯文本数据,这将极大地扩展训练数据的多样性。

文章转自:https://zhuanlan.zhihu.com/p/83388180。


本文关键词:leyu乐鱼体育,基于,CTC,转换器,的,自动,拼写,校正,端,到

本文来源:乐鱼体育官网登录-www.8scores.com