大模型微调（Fine-tuning）实战手册

发布于 2025-10-30

什么时候需要微调？

不要为了微调而微调。通常，Prompt Engineering 和 RAG 能解决 90% 的问题。只有当你需要：

全量微调，效果最好，但极其消耗显存。

目前最主流的方案。冻结主模型参数，只训练旁路矩阵。显存占用极低，效果却能达到全量微调的 90% 以上。

在 LoRA 的基础上引入 4-bit 量化，进一步降低门槛，单张 3090 也能微调 70B 模型。

“Garbage in, Garbage out”。高质量的指令数据集（Instruction Dataset）比算法本身更重要。