注意力机制变体

约 584 个字预计阅读时间 2 分钟

注意力变体¶

注意力类型	主要特点	应用场景
加性注意力（Bahdanau）	使用可学习的权重矩阵和非线性激活函数（如 tanh）计算注意力得分，适用于查询和键维度不同的情况。	早期的神经机器翻译模型，处理变长输入序列。
乘性注意力（Luong）	通过点积计算注意力得分，计算效率高，适用于查询和键维度相同的情况。	神经机器翻译、文本摘要等任务。
缩放点积注意力(scaled dot-product attention)	在点积注意力的基础上引入缩放因子，防止梯度消失，提升训练稳定性。适用于查询和键维度相同的情况。	Transformer 模型中的核心注意力机制。
自注意力（Self-Attention）	查询、键、值来自同一序列，捕捉序列中元素之间的全局依赖关系。	Transformer 编码器和解码器，BERT、GPT 等模型。
多头注意力（Multi-Head）	将注意力机制分成多个头，捕捉不同子空间的信息，提高模型的表达能力。	Transformer 架构中的关键组成部分。
交叉注意力（Cross-Attention）	查询来自一个序列，键和值来自另一个序列，实现信息的交互融合。	编码器-解码器结构，如图像字幕生成、跨模态任务。
掩码注意力（Masked Attention）	对未来的信息进行屏蔽，确保模型只能访问当前或过去的信息。	自回归模型中的解码器，如 GPT 系列。
通道注意力（Channel Attention）	关注特征图的通道维度，增强重要通道的响应。	图像分类、目标检测等计算机视觉任务。
空间注意力（Spatial Attention）	关注特征图的空间维度，突出关键区域的信息。	图像分割、目标定位等视觉任务。

在注意力机制中，计算查询（Query, Q）与所有键（Key, K）的点积之所以能得到相似度得分，是因为点积在数学上衡量了两个向量之间的相似性。具体而言，点积值越大，表示两个向量的方向越接近，即它们在向量空间中的相似度越高。

用户输入为 Q, 查询相似的K对应的V. 计算注意力得分