Transformer

约 619 个字预计阅读时间 2 分钟

transformer¶

利用自注意力机制捕捉文本中的长距离依赖关系

在处理一个元素时，模型可以动态地关注输入序列中的其他部分，从而聚焦于与当前任务最相关的信息。

通过**点积（Dot Product）计算**查询与键, 来评估序列中不同位置的相关性或重要性，得到注意力权重，然后用这些权重对值进行加权求和，生成当前元素的表示

是一种特殊的注意力机制，其中查询、键和值都来自同一个序列。

作用：捕捉序列内部元素之间的依赖关系。

Normalization: 对数据进行重新中心化和重新缩放的调整

模块名称	所在位置	主要功能描述
Self-Attention（自注意力）	编码器和解码器	使模型在处理每个词时，能够关注序列中所有其他位置的词，以捕捉词与词之间的依赖关系。
Encoder-Decoder Attention（编码器-解码器注意力）	解码器	在解码过程中，允许模型根据编码器的输出，动态地关注输入序列的不同部分，从而有效地利用上下文信息。
Add & Normalize（残差连接与层归一化）	所有子层之后	通过残差连接缓解梯度消失问题，并通过层归一化稳定训练过程，加速模型收敛。
Feed Forward（前馈神经网络）	编码器和解码器	为每个位置的表示引入非线性变换，增强模型的表达能力。

核心组件	功能说明
编码器 (Encoder)	用于文本理解（如 BERT 类模型），捕捉双向上下文信息
解码器 (Decoder)	用于文本生成（如 GPT 类模型），采用自回归方式逐词生成
嵌入层 (Embedding)	将离散 token 转换为高维向量，实现符号到语义空间的映射
位置编码 (Positional Encoding)	解决 Transformer 无序列感知问题，通过正弦 / 余弦函数注入位置信息
残差连接 + LayerNorm	解决深度网络训练梯度消失问题，加速收敛并提高稳定性
前馈网络 (FFN)	对每个位置的特征进行非线性变换，增强模型表达能力