lum7na的大模型技术分享

多模态大模型（LMM）前沿进展：视觉与语言的融合

发布于 2025-08-15

走向“原生多模态”

早期的多模态模型往往是“语言模型 + 视觉编码器”的简单拼接。而 2025 年的趋势是“原生多模态”（Native Multimodal），即模型在预训练阶段就同时接触文本、图像甚至音频数据。

关键技术

1. Visual Tokenization

像处理文本一样处理图像。将图像切片并编码为 token，使其能与文本 token 在同一个 Transformer 空间中交互。

2. 任意分辨率支持

为了处理不同比例的图片，动态分辨率编码技术成为了标配，避免了传统 resize 操作带来的细节丢失。

应用场景

自动驾驶：端到端的大模型驾驶方案。
具身智能 (Embodied AI)：机器人通过视觉理解物理世界并执行操作。