多模态大模型(LMM)前沿进展:视觉与语言的融合
走向“原生多模态”
早期的多模态模型往往是“语言模型 + 视觉编码器”的简单拼接。而 2025 年的趋势是“原生多模态”(Native Multimodal),即模型在预训练阶段就同时接触文本、图像甚至音频数据。
关键技术
1. Visual Tokenization
像处理文本一样处理图像。将图像切片并编码为 token,使其能与文本 token 在同一个 Transformer 空间中交互。
2. 任意分辨率支持
为了处理不同比例的图片,动态分辨率编码技术成为了标配,避免了传统 resize 操作带来的细节丢失。
应用场景
- 自动驾驶:端到端的大模型驾驶方案。
- 具身智能 (Embodied AI):机器人通过视觉理解物理世界并执行操作。