大语言模型(Large Language Model, LLM)是当前人工智能领域最热门的技术方向之一。要理解 LLM,我们需要从 Transformer 架构说起。

Transformer 架构

2017 年,Google 在论文 Attention Is All You Need 中提出了 Transformer 架构,彻底改变了自然语言处理领域。其核心创新是 自注意力机制(Self-Attention),使模型能够并行处理序列中的所有位置,并捕捉长距离依赖关系。

自注意力机制

自注意力允许每个 token 与序列中的其他 token 计算关联权重:

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

其中 Q(Query)、K(Key)、V(Value)是通过线性变换得到的查询、键和值矩阵。

预训练与微调

现代 LLM 通常采用两阶段训练策略:

  1. 预训练(Pre-training):在大规模文本语料上进行无监督学习,学习语言的统计规律和世界知识
  2. 微调(Fine-tuning):在特定任务数据上进行有监督微调,或通过 RLHF 对齐人类偏好

GPT 系列演进

OpenAI 的 GPT 系列是 LLM 发展的典型代表:

  • GPT-1(1.17B 参数):验证了 Transformer 解码器在语言建模上的有效性
  • GPT-2(1.5B 参数):展示了零样本学习的能力
  • GPT-3(175B 参数):涌现出了 in-context learning 能力
  • GPT-4:多模态能力,推理能力大幅提升

总结

理解 Transformer 架构和预训练-微调范式,是深入学习大模型技术的基础。后续文章将深入探讨推理优化、RAG 等实践话题。