分享缩略图

分享到:
链接已复制
首页> 新闻中心>

Conformer:用于语音识别的卷积增强Transformer

2025-06-24 12:47:56

来源:新华网

字体:

        Transformer模型善于捕捉基于内容的全球互动,而cnn可以有效地利用局部特征。在这项工作中,研究如何将卷积神经网络与Transformer相结合,以参数有效的方式建模音频序列的局部和全局依赖性,从而实现两全面性。

        为此,提出了用于语音识别的卷积增强Transformer,命名为Conformer。Conformer比之前的Transformer和基于CNN的模型࿰要好得多c;达到最先进的精度。

1. 引言。

        。基于神经网络的端到端。自动语音识别(ASR)。近年来,该系统取得了很大的进步。递归神经网络(RNN)已成为ASR的实际选择,因为它们能有效地模拟音频序列中的时间依赖性。最近,基于自我关注的Transformer系统结构可以捕捉长距离交互和高训练效率,广泛应用于序列建模。另外,ASR中的卷积也取得了成功,它通过局部接受场逐渐捕获局部上下文。

        但是,具有自我注意或卷积的模型有其局限性。虽然Transformer擅长建模远程全球上下文,然而,它们在提取细粒度的局部特征模式方面的能力较差。另一方面,󿀌卷积神经网络(CNN)使用局部信息󿀌在视觉上被用作实际的计算块。基于位置的核࿰在一个局部窗口上学习共享c;这些核保持平移等变性󿀌并能捕捉边缘、形状等特征。局部连接的限制是,捕获全局信息需要更多的层或参数。为了解决这个问题,ContextNet[10]用挤压激励模块在每个残余区块中捕获更长的上下文。但是,它在整个捕获动态上下文方面仍然有限,因为它只应用于整个序列的整体平均值。

1.1 多分支架构。

        多分支架构,将输入分为两个分支:自注意力和卷积;并将其输出连接起来。工作目标是移动应用,并显示了机器翻译任务的改进。研究了如何在ASR模型中有机地结合卷积和自注意力。假设全局和局部相互作用对参数效率非常重要。为了实现这一点�提出了一种新颖的自我关注和卷积的组合,两全其美-自注学习全球互动,基于相对偏移量的局部相关性可以有效地捕获卷积。受Wu等人[17,18]的启发,引入了新颖的自我注意力和卷积的组合,一对前馈模块之间的夹子,如图1所示。

2. Conformer Encoder。

        首先,用卷积子采样层处理音频编码器输入#xff0c;然后用一些共形块处理输入,如图1所示。该模型的显著特征是用Conformer块代替Transformer块,如[7,19]所示。

        整个模块由四个堆叠的模块组成󿀌即前馈模块、自关模块、卷积模块和最后的第二个前馈模块。

2.1 多头自注意模块。

        采用多头自注(MHSA),Transformer同时集成-XL[20]重要技术,也就是说,相对正弦位置的编码方案。相对位置编码允许自注模块更好地泛化不同的输入长度,而生成的编码器对话语长度的变化具有更强的鲁棒性。使用带dropout的prenorm残差单元[21,22],这有助于训练和规范更深层次的模型。下图3显示了多头自注块。 。

2.2 卷积模块。

        介绍了结合卷积模块和前馈模块的模型架构,受某些文献的启发,具体细节如下:a;

        卷积模块。:首先使用了一个卷积模块。门控机制。(gating mechanism),具体实现包括逐点卷积(pointwise convolution)和。门控线性单元(GLU)。该门控机制能有效控制信息流。之后,模型采用一层。卷积层可分离1维深度。,提高卷积操作的效率和效果。为促进深度模型训练,然后应用于卷积层。批量归一化(Batchnorm)。该卷积块的结构:

2.3 前馈模块 。

        前馈模块。:前馈模块是继承经典Transformer架构的,多头自注力层(MHSA layer)之后使用。这个模块是由的。两个线性变换。夹在里面的。非线性激活函数。组成。另外,残差连接。添加到前馈层,帮助网络保留信息流,并在前馈层后进行。层层归化(Layer Normalization)。这种结构也应用于语音识别的Transformer模型。

        预归一化残差单元。:为优化残余单元的培训过程,采用了。残差单元预归一化。(pre-norm residual units),这意味着在第一层线性层之前,先输入。层归一化。。另外,作者使用了它。Swish激活函数。,这是一个较新的激活函数,可以提高模型的性能。同时,dropout。该技术还应用于前馈模块,帮助正规化网络󿀌减少过拟合。图4显示了前馈模块的具体结构。

2.4 Conformer Block。

        Conformer模块包括两个前馈模块,夹在多头自注意力模块和卷积模块之间,如图1所示。这种三明治结构的灵感来自Macaron-Net [18]#xff0c; Macaron-Net提议将Transformer块中的原始前馈层替换为两个半步前馈层,在注意层之前,在注意层之后。和Macron-Net一样,在前馈(FFN)半步残差权重用于模块中。第二个前馈模块是层归一化。数学上,这意味着󿀌对于向Conformer i 输入。x_i,该块的输出。y_i为:。

        半步残差权重是指在两个前馈模块之间引入轻量级残差连接,确保网络能够更好地利用这些层之间的关系 。

\begin{ aligned} &\tilde{ x}_{ i} =x_{ i}+\frac{ 1}{ 2}\mathrm{ FFN}(x_{ i}) \\ &x_i^{ \prime} =\tilde{ x_{ i}}+\mathrm{ MHSA}(\tilde{ x_{ i}}) \\ &&\text{ (1)} \\ &x_{ i}^{ \prime\prime} =x_i^{ \prime}+\mathrm{ Conv}(x_i^{ \prime}) \\ &y_{ i} =\mathrm{ Layernorm}(x_{ i}^{ \prime\prime}+\frac12\mathrm{ FFN}(x_{ i}^{ \prime\prime})) \end{ aligned} 。

其中,FFN的前馈模块,MHSA是多头注意力模块,Conv是卷积模块。 。

3. 实验。

3.1 数据。

        首先,来自实验数据。 LibriSpeech 数据集。,该数据集包含 970 小时标注语音数据,还有一个额外的内容 8 文本语料库࿰只有1亿个单词c;用于构建语言模型(Language Model, LM)。

        特征提取。:从语音信号中提取 80 xff08维滤波器组;filterbank)特征,这些特征来自一个 25 计算在毫秒窗口中的,时间步长为 10 毫秒。

        数据增强。:使用了。 SpecAugment。#xfff0数据增强技术c;通过遮盖(masking)增强数据的多样性。具体参数包括 F=27,最大覆盖时间长度为句子长度 5%。

3.2. Conformer 转录器。

        实验中使用了三种模型,分别是。 small。、。medium。和。 large。模型,参数分别为 1000 万、3000 万和 1.18 亿。搜索＀,通过改变网络深度、模型维度、注意力等组合c;选择性能最好的模型。所有模型的解码器都使用单层 LSTM。

        正则化。:在每个残余单元的输出中,使用了。 dropout。正则化技术󿀌丢弃率为 0.1。另外,还引入了。 变分噪声。进一步增加模型的鲁棒性。同时,增加了所有可训练的权重。 L2 正则化。,权重为 1e-6。

        优化器。:使用。 Adam 优化器。,参数设置为 β1 = 0.9,β2 = 0.98�ϵ = 1e-9。在训练过程中采用。 Transformer 学习率调度策略。,进行了 10k 的 warm-up 步骤,学习率峰值为 0.05/√d,其中 d 是模型编码器的维度。

        语言模型。:使用了 3 层 LSTM 语言模型󿀌隐藏层的宽度为 4096。语言模型的单词水平混乱(word-level perplexity)在开发集中 63.9。使用。 浅层融合。技术(shallow fusion),语言模型的权重通过网格搜索调节 λ。

3.4 消融实验。

3.4.1 Conformer Block vs Transformer Block。

        卷积模块。:Conformer 包含一个卷积模块,这是与 Transformer 块的最大区别之一。

      Macaron 风格的 FFN 对。:Conformer 使用了 Macaron-Net 两层前馈神经网络风格(FFN),而不是像 Transformer 只使用单层块 FFN。

        卷积子块。是 Conformer 块中最重要的特征,删除它会显著降低模型性能。Macaron 风格的 FFN 对。与具有相同参数的单个参数相比,性能也更好 FFN 更好。使用。 Swish 激活函数。可以加快 Conformer 模型的收敛速度。

3.4.2 卷积与自注意模块的结合。

        研究了不同的组合方式。 卷积模块。和。 多头自注意模块 (MHSA)。的效果。用轻量卷积代替深度卷积。会导致性能显著下降,尤其是在 dev-other 数据集上。放置卷积模块 MHSA 之前。会轻微降低模型性能。并行的 MHSA 和卷积模块。(输出连接)导致性能不如原始架构。

        放置卷积模块 MHSA 模块后面是最好的设计。

3.4.3 Macaron 前馈神经网络模块的风格。

        Conformer 模块使用的是。 Macaron 风格的前馈神经网络 (FFN)。,它将自注和卷积模块夹在中间,并采用半步残差连接。研究结果表明,󿀌与使用单个 FFN 或者与#xff0相比,完全残差c;Macaron 风格的 FFN 性能更好。

3.4.4 注意力头的数量。

        当注意力量增加到时 16 时,特别是在模型的精度方面 dev-other 数据集得到了改进,超过这个数量后,效果趋于稳定。

3.4.5 卷积核大小的影响。

        随着卷积核大小的增加,性能逐渐提高󿀌最佳性能出现在卷积核的大小上 17 和 32 时,但当卷积核大小增至 65 时,性能下降。

【责任编辑:新华网】
返回顶部