lum7na的大模型技术分享

多模态大模型(LMM)前沿进展:视觉与语言的融合

发布于 2025-08-15

走向“原生多模态”

早期的多模态模型往往是“语言模型 + 视觉编码器”的简单拼接。而 2025 年的趋势是“原生多模态”(Native Multimodal),即模型在预训练阶段就同时接触文本、图像甚至音频数据。

关键技术

1. Visual Tokenization

像处理文本一样处理图像。将图像切片并编码为 token,使其能与文本 token 在同一个 Transformer 空间中交互。

2. 任意分辨率支持

为了处理不同比例的图片,动态分辨率编码技术成为了标配,避免了传统 resize 操作带来的细节丢失。

应用场景

  • 自动驾驶:端到端的大模型驾驶方案。
  • 具身智能 (Embodied AI):机器人通过视觉理解物理世界并执行操作。