lum7na的大模型技术分享

Transformer 架构详解:从 Attention 到 GPT

发布于 2025-02-15

Transformer 的诞生

2017 年,Google 团队发表了著名的论文《Attention Is All You Need》,正式提出了 Transformer 架构。这一架构彻底抛弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全基于注意力机制(Attention Mechanism)。

核心组件

1. Self-Attention(自注意力机制)

自注意力机制允许模型在处理序列中的每个单词时,都能关注到序列中的其他单词。通过计算 Query (Q), Key (K), Value (V) 矩阵,模型能够捕获长距离的依赖关系。

$$ Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V $$

2. Multi-Head Attention(多头注意力)

通过将注意力机制并行化,模型可以从不同的表示子空间中学习信息,增强了模型的表达能力。

3. Positional Encoding(位置编码)

由于 Transformer 不再按顺序处理数据,必须引入位置编码来保留序列的顺序信息。通常使用正弦和余弦函数来生成位置向量。

总结

Transformer 的并行计算能力极大地提高了训练效率,为 BERT、GPT 等大规模预训练模型的诞生奠定了基础。