大语言模型入门：从 Transformer 到 GPT | lum7na的大模型技术分享

大语言模型（Large Language Model, LLM）是当前人工智能领域最热门的技术方向之一。要理解 LLM，我们需要从 Transformer 架构说起。

Transformer 架构

2017 年，Google 在论文 Attention Is All You Need 中提出了 Transformer 架构，彻底改变了自然语言处理领域。其核心创新是 自注意力机制（Self-Attention），使模型能够并行处理序列中的所有位置，并捕捉长距离依赖关系。

自注意力允许每个 token 与序列中的其他 token 计算关联权重：

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

其中 Q（Query）、K（Key）、V（Value）是通过线性变换得到的查询、键和值矩阵。

现代 LLM 通常采用两阶段训练策略：

OpenAI 的 GPT 系列是 LLM 发展的典型代表：

理解 Transformer 架构和预训练-微调范式，是深入学习大模型技术的基础。后续文章将深入探讨推理优化、RAG 等实践话题。