一、背景

1. 序列到序列模型

序列到序列模型

1）语音辨识

**输入输出关系：**输入声音信号（t帧特征向量），输出对应文字（n个字），t与n无固定比例关系。

**典型案例：**台语语音辨识系统（1500小时乡土剧训练数据）。

**技术特点：**直接端到端训练，跳过音标转换等中间步骤（”硬train一发”方法）。

2）机器翻译

**长度关系：**输入句子长度n与输出句子长度n’由模型动态决定。

中英案例：“机器学习”（4字）→”machine learning”（2词），非固定1/2比例（可长可短）。

3）语音翻译（语音辨识复合机器翻译）

**特殊价值：**适用于无文字语言（全球7000+语言中过半无文字系统）。

**实现方式：**直接建立语音到目标语言文字的映射，避免传统ASR+MT串联方案。

4）台语语音辨识应用案例

台语语音辨识应用案例

**数据来源：**YouTube乡土剧（台语音频+中文字幕对齐数据）。

**技术挑战：**背景⾳乐/噪声干扰（直接忽略处理）；字幕与语音不完全对齐（仍可训练）；跳过台罗拼音中介步骤（端到端训练）；强行训练。

**典型错误：**倒装句处理困难（”我有帮厂长拜托” vs 正确应为”我拜托厂长”）；语义理解偏差（”要生了吗” vs 正确答案”不会腻吗”）。

5）台语语音合成应用案例

台语语音合成应用案例

**实现方案：**两阶段处理：中文→台罗拼音→声音信号；使用Tacotron模型（基于Seq2seq架构）。

合成示例：“欢迎来到台大语音处理实验室”→台语发音。

6）聊天机器人

**训练数据：**影视剧对话数据集（输入-响应配对）。

**实现方式：**将对话建模为[输入语句→响应语句]的序列转换任务。

7）自然语言处理

自然语言处理

**统一视角：**多数NLP任务可视为QA问题：翻译：问题=”英文句子的德文翻译？”；摘要：问题=”文章的摘要是什么？”；情感分析：问题=”句子是正面/负面？”。

**实现方案：**将”问题+上下文”拼接作为输入序列，答案作为输出序列。

2. 任务应用

1）多标签分类

**核心区别：**多分类任务：从多个类别中选择一个最合适的类别（n选1）；多标签任务：一个对象可以同时属于多个类别（n选k，k不固定）。

**应用示例：**文章分类中，一篇文章可能同时属于”科技”和”教育”两个类别；图片标注中，一张图片可能包含”猫”、”狗”、”草地”等多个标签。

**传统方法局限：**直接取分类器得分前三名会失效，因为不同样本的标签数量可能不同（有的需要2个标签，有的需要3个）。

Seq2Seq解决方案：让模型自主决定输出序列长度（即标签数量）；输入文章，输出不定长的类别序列（如：Class1 Class3）。

2）目标检测

目标检测

**创新应用：**传统目标检测需要预定义anchor boxes；Seq2Seq模型可以直接输出检测结果序列。

**实现特点：**输入图片特征，输出不定长的(object class, bounding box)序列；模型自主决定需要检测的物体数量。

**参考文献：**DETR模型论文链接：https://arxiv.org/abs/2005.12872。

二. transformer结构

1.编码器

编码器

**组成结构：**Encoder：处理输入序列，输出中间表示；Decoder：基于编码结果生成输出序列。

**发展历程：**2014年首次提出（论文：https://arxiv.org/abs/1409.3215）；现以Transformer架构为主流。

1）编码器的block

编码器的block

**基本流程：**输入向量序列通过多个相同结构的block；每个block包含：Multi-head Self-attention层、Feed Forward层、残差连接和Layer Normalization。

2）位置编码

必须添加positional encoding来保留序列顺序信息；与输入embedding相加后送入encoder。

3）自我注意力的层次

自我注意力的层次

**残差连接：**将self-attention层的输入直接加到输出上(a + b)；缓解深层网络梯度消失问题。

Layer Normalization：对单个样本的所有维度计算均值方差；公式：[图像]；与Batch Norm区别：不依赖batch统计量。

**完整流程：**Self-attention + 残差；Layer Norm；[][图像]；FFN + 残差；再次Layer Norm。

**架构优化：**原始设计非最优（论文：https://arxiv.org/abs/2002.04745）；调整normalization位置可能提升性能；PowerNorm可作为Layer Norm替代方案（论文：https://arxiv.org/abs/2003.07845）。

2.解码器

解码器

1）自动回归解码器

1.1 例题：语音识别

语音识别

**工作原理：**输入声音信号（如”机器学习”的语音），通过encoder转换为vector sequence，decoder逐步生成文字输出。输入输出转换与机器翻译原理相同，只需改变输入输出内容（语音→文字 vs 文本→文本）。特殊起始符需在decoder输入中加入BEGIN符号（BOS），用one-hot vector表示（某一位为1其余为0）。

**输出向量特性：**输出向量长度等于vocabulary size（如中文常用3000字），经softmax处理后形成概率分布（总和为1），输出的就是中文的每一个字的可能性，比如预测下一个字之后可能输出的方块字的可能性。多语言处理差异：英文可选择字母/单词/subword为单位，中文通常以单个方块字为单位，英文是以词或者字母，或者词组。中文是单个字进行输出。输出的是一个分布。分数最高的中文字就是最终的输出。

decoder的上一个输出回合以前的输入成为新的decoder的输入。自己的输出当作下一个时间的自己的输出。

1.2 解码器的结构

解码器的结构

**基础结构：**与encoder相似（multi-head attention → add & norm → feed forward → add & norm），重复N次。

**关键差异：**输出端增加softmax层生成概率分布（输出变成未来的几率）；采用masked multi-head attention（屏蔽未来信息）包含中间特殊连接层（图中被遮盖部分）现在不能再去看未来的信息了。

**自回归特性：**将前步输出作为当前输入（如BEGIN→”机”→”器”→”学”→”习”），输入和输出的结果长度不确定。

**错误传播风险：**若中间输出错误（如将”器”误为”气”），后续输出可能持续错误。

1.3 屏蔽自我注意

屏蔽自我注意

对应的query和key不会涉及到之后的信息，是有顺序的。

有顺序

**屏蔽原理：**计算bi时只能关注a1到ai，禁止访问右侧信息(ai+1及之后）。

**实现方式：**计算attention时，query只与左侧key相乘（如q2只与k1,k2计算）；通过设置attention score为-∞实现右侧屏蔽。

**必要性：**decoder输出具有时序性(a1→a2→…)，生成ai时无法知晓ai+1信息

**对比标准attention：**原始self-attention可同时访问全部输入信息。

1.4 输出序列长度确定

例题：推文接龙类似于成语接龙。

推文接龙

**类比说明：**类似PTT推文接龙（如”超→人→正→大→中→天”），需明确终止机制。

**持续风险：**若无终止信号，decoder可能无限生成输出（如”机器学习习习习…”）。

**停止标记：**特殊符号在vocabulary中添加END标记（与BEGIN可同符号）有开始就要有结尾

停止标记

**终止条件：**当输出END的概率最大时停止生成。

**实现细节：**训练时让decoder学习在适当位置输出END；中文处理时需额外增加该特殊符号（超出常规汉字集）。

**工作流程：**完整生成过程示例：BEGIN→”机”→”器”→”学”→”习”→END，产生习之后END的概率应该最高。

2）非自动回归解码器

非自动回归解码器

**AT工作方式：**采用自回归方式（Autoregressive），缩写为AT。依次生成序列：输入BEGIN→输出W1→将W1作为新输入→输出W2→…→直到输出END标记。不是一次产生的。

**NAT工作方式：**非自回归（Non–autoregressive）模型，缩写为NAT。一次性生成整个序列：输入一排BEGIN token→直接输出完整序列（如中文句子）。

**长度控制方法：**使用分类器预测输出长度：分类器读取encoder输出，预测数字n→decoder接收n个BEGIN token，简单的预测一个对应的长度；

**预设最大长度：**输入固定数量BEGIN token（如300个），通过END标记截断多余输出，假设一个具体长度的上限。

2.1 非自动回归解码器的优点

**并行计算优势：**无论输出长度多少都只需一个计算步骤，速度显著快于AT（100字句子AT需100次计算，NAT只需1次）计算步骤明显减少。输出长度

**可控性：**通过调整预测长度的分类器输出，可精确控制生成速度（如语音合成中，长度×2→语速减半）。

**技术背景：**依赖Transformer的self-attention机制，传统RNN/LSTM无法实现此架构

**当前局限：**存在multimodality问题，性能通常低于AT模型，需复杂技巧才能达到相近效果，实际上准确度很差，很多的研究只能逼近对应的AT模型。

3）编码器和解码器之间的连接

编码器和解码器结构

**信息传递方式：**通过cross attention（桥梁)连接，decoder生成query(q)，encoder提供key(k)和value(v)。

**具体流程：**encoder输出向量a1,a2,a3转换为k1,k2,k3和v1,v2,v3；decoder输入（如BEGIN）生成query(q)；计算q与k的attention分数，加权求和v得到输出向量。

**层级连接：**原始方案中所有decoder层都使用encoder最后一层输出，但可自定义其他连接方式，可以由操作者自行定义，永远可以有新的想法。

层级链接

具体流程

4）训练

4.1 需要什么样的训练资料

**数据要求：**输入序列（如音频）与对应输出序列（如人工标注文本）的配对数据。

**标注格式：**每个输出token对应one-hot向量（如4000个中文单字的分类问题），每一个输出都有一个交叉熵，所有的交叉熵的总和越小越好。

4.2 训练过程

训练过程

**Teacher Forcing：**训练时decoder接收真实序列作为输入（BEGIN+正确答案），测试时使用自身输出，训练的时候会给decoder看正确答案。

**损失计算：**每个时间步计算输出分布与one-hot向量的交叉熵，总和最小化。特殊标记处理：需包含END标记的训练（如4字句子需计算第5个位置的END损失）。

**训练-测试差异：**存在exposure bias问题，后续可能需用计划采样(scheduled sampling)等方法缓解。

5）训练技巧

5.1 复制机制

5.1.1 复制机制在任务中的应用

**核心思想：**允许decoder从输入序列中直接复制内容到输出，而非完全自主生成。

**适用场景：**当输出内容部分或全部存在于输入中时特别有效，如专有名词、特定术语等（聊天机器人）。

**必要性：**对于罕见词汇（如”库洛洛”），模型可能从未在训练数据中见过，自主生成困难。

5.1.2 聊天机器人中的复制机制举例

**案例1：**输入：”你好，我是库洛洛”；理想输出：”库洛洛你好，很高兴认识你”；机制优势：模型无需生成罕见词”库洛洛”，只需学习复制模式”我是[某某某]→[某某某]你好”。

**案例2：**输入：”小杰不能用念能力了”；理想输出：”你所谓的不能用念能力是什么意思”；机制优势：直接复述用户输入中的关键短语，避免生成错误。

5.1.3 摘要任务中的复制机制

摘要任务中的复制机制

**数据需求：**需要百万级文章-摘要配对数据（几万篇效果不佳）。

**复制必要性：**摘要中60-70%内容通常直接来自原文；

**类似人工摘要过程：**筛选关键句+改写。

**训练技巧：**可利用文章标题作为摘要简化标注。

5.1.4 实现复制机制的模型

**Pointer Network：**最早实现复制能力的模型。

**Copy Network：**改进版本，论文《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》。

**实现原理：**通过概率pgen决定生成新词或复制输入词。

5.2 引导注意

5.2.1 Sequence to Sequence模型在语音合成中的应用

**典型应用：**输入文字→输出语音波形。

**成功案例：**输入：”发财发财发财发财”（四次）；输出：自动添加抑扬顿挫。数据需求：需要大量文本-语音配对数据。

5.2.2 Sequence to Sequence模型的局限性

**漏字问题：**输入：”发财”（单次）；错误输出：”财”（漏掉”发”）。原因分析：短句训练数据不足导致处理异常。

5.2.3 Guided Attention的引入与重要性

Guided Attention

**核心思想：**强制模型按特定模式处理输入。

**关键应用：**语音识别：必须听完整个输入；

**语音合成：**必须读完所有文字。必要性：相比聊天机器人等任务，语音任务对完整性要求更严格。

5.2.4 Monotonic Attention与Location-aware Attention简介

漏字问题

**Monotonic Attention：**强制注意力从左到右移动；适合语音合成等单调对齐任务。

**Location-aware Attention：**考虑当前位置信息；防止注意力”颠三倒四”。实现效果：通过约束注意力路径解决漏字问题。

5.3 束搜索

5.3.1 贪婪解码（Greedy Decoding）介绍

束搜索

**工作原理：**在每一步解码时选择当前概率最高的token(max选择），如示例中第一步选择概率0.6的A，第二步选择0.6的B，最终输出序列为ABB。

**局限性：**可能陷入局部最优，如红色路径虽然每个步骤都选最大值，但整体序列概率（0.6×0.6×0.6=0.216）低于绿色路径（0.4×0.9×0.9=0.324）。

5.3.2 束搜索与贪婪解码的对比

**策略差异：**贪婪解码只保留单一路径，而束搜索（Beam Search）保留Top B（束宽）条路径，通过牺牲短期收益可能获得更优全局解。

**类比说明：**类似”天龙八部珍珑棋局”中先牺牲局部棋子获得全局胜利，或人生决策中短期辛苦（如读博）可能带来长期收益。

5.3.3 束搜索的必要性

**计算可行性：**当词表大小V=4000时，3步解码就有4000³种路径，穷举不可行。束搜索通过束宽B控制计算复杂度。

**折中方案：**不是精确求解而是近似搜索，平衡计算资源和结果质量。

5.3.4 束搜索的效果评价

**适用场景：**语音识别等答案明确的任务效果较好，因其需要确定性输出。

**潜在问题：**在需要创造力的任务（如文本生成）中可能导致重复输出（如”鬼打墙”现象）。

5.4 采样

5.4.1 任务介绍：句子合成（Sentence Completion）

句子合成

**任务特点：**给定前半句生成后半句，存在多种合理续写方式，属于开放式生成任务。

5.4.2 Beam Search的问题：重复与无穷循环

**典型表现：**如论文案例中机构名称”Universidad Nacional…”的无限重复，输出失去语义连贯性。

5.4.3 随机性在Decoder中的作用

**必要性：**通过引入采样噪声（如top-k/top-p采样）打破确定性输出模式，生成更自然的文本。

5.4.4 任务特性与采样策略的关系

**确定性任务：**语音识别等应采用Beam Search。

**创造性任务：**文本生成、故事续写等需引入随机性。

哲学启示：“接受不完美才是真正的美”（呼应神经网络输出不一定概率最高即最优）。

5.4.5 需要随机性的任务示例：语音合成（TTS）

**反常现象：**测试时加入噪声反而改善合成效果（正常ML应在训练时加噪）。

**对比表现：**纯确定性解码会产生机械的”机关枪式”语音，适当随机性使发音更自然。

5.5 优化评估指标

评估指标差异

**评估指标差异：**训练时使用交叉熵损失（cross entropy），而评估时使用BLEU score，两者目标不一致。

**指标特性对比：**BLEU score需要生成完整句子后与参考答案进行整体比较；交叉熵对每个词汇分开计算损失。优化困境：BLEU score不可微分，无法直接用于梯度下降；

实际应用中通常选择BLEU score最高的模型而非交叉熵最低的模型。

**解决方案：**RL方法将BLEU score作为强化学习的reward，decoder作为agent；实践建议该方法实现难度较大，作业中不特别推荐使用。

5.6 训练与测试不一致的问题

**暴露偏差(Exposure Bias)：**训练时decoder只看到完全正确的输入；

测试时decoder需要处理自身产生的错误输出；后果错误会累积传播，导致”一步错步步错”现象。

**解决思路：**在训练时有意向decoder输入包含错误的数据定期采样。

**Scheduled Sampling：**核心思想按一定比例混合正确输入和模型预测输出作为decoder输入。

Scheduled Sampling

发展历程2015年首次提出用于LSTM；后续有Transformer适配版本(2019年)。

**局限性：**可能影响Transformer的并行计算能力。

**实现变体：**Parallel Scheduled Sampling等改进方法；不同网络结构需要采用不同的采样策略；

实现变体

技术背景：这些训练技巧需要结合Transformer的特殊结构实现；应用范围涉及encoder、decoder及其交互关系的整体优化。