大模型微调(Fine-tuning)实战手册
什么时候需要微调?
不要为了微调而微调。通常,Prompt Engineering 和 RAG 能解决 90% 的问题。只有当你需要:
- 注入特定的行业“语气”或格式。
- 让小模型(如 7B)获得特定的垂直领域能力。 才需要考虑微调。
微调方法论
1. SFT (Supervised Fine-Tuning)
全量微调,效果最好,但极其消耗显存。
2. LoRA (Low-Rank Adaptation)
目前最主流的方案。冻结主模型参数,只训练旁路矩阵。显存占用极低,效果却能达到全量微调的 90% 以上。
3. QLoRA
在 LoRA 的基础上引入 4-bit 量化,进一步降低门槛,单张 3090 也能微调 70B 模型。
数据准备
“Garbage in, Garbage out”。高质量的指令数据集(Instruction Dataset)比算法本身更重要。