8.1 视觉与文本融合：多模态大模型(VLM)架构解析

2026年2月25日

阅读需 6 分钟

wqz

ai学习

/multimodal

/vlm

赋予模型更多感官

在前 7 个阶段中，我们探讨的大语言模型（LLM）均基于纯文本输入和输出。但现实世界的交互形式不仅限于文本，还包括图像、声音、甚至视频。

本章将介绍多模态（Multimodal）大语言模型（VLM）的核心实现思路：解决因不同数据类型间的“语用隔离”而产生的计算鸿沟，探讨业界是如何让大语言模型成功读懂并解析图像的。

1. 模态之间的语义鸿沟

将视觉图像直接输入给文本语言模型会面临天然的数据格式差异问题。

对于自然语言模型，文本“猫”被映射在具备丰富语义坐标系的 Embedding 空间内。
对于计算机视觉，一张“猫”的图片仅仅是一组由 RGB 颜色参数构成的多维数组。

直接将像素数组展平后送入语言模型的 Transformer 层是低效且缺乏语义深度的。语言模型无法从孤立的像素矩阵坐标中提取出“猫”这个词汇所包含的逻辑概念。这就构成了视觉与文本模型融合时最基础的壁垒——模态不互通。

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents (like one shade of blue). Flat design, no 3D effects, no clutter. Draw a grid of pixels on the left. On the right, draw an abstract scatter plot or coordinate system with text nodes. A broken line or barrier sits between them.)]

2. 破壁基石：CLIP 模型的对比学习

为了解决图文对齐问题，OpenAI 在 2021 年提出了 CLIP (Contrastive Language-Image Pre-training)模型，这是当代多模态发展史上的一个核心里程碑。

2.1 结构与数据集

为了弥合两种模态，CLIP采用了双编码器系统：

图像编码器 (Vision Encoder)：专门提取图片的高维特征空间。
文本编码器 (Text Encoder)：专门提取文本的高维特征空间。

CLIP 的预训练语料建立在互联网上搜集到的 4 亿对【图像-关联文本描述】（Image-Text Pair）的基础之上。

2.2 对比学习机制 (Contrastive Learning)

训练过程中，CLIP 不去直接预测某张图片属于哪个类别，而是去计算同一批次内文本特征向量和图像特征向量的点积（相似度）：

如果一张图和对应的文本是自然图文对，算法通过梯度下降拉近两者的点积，即促使它们的向量特征在同一表示空间内相互融合靠拢；
如果两者不匹配，算法则将它们的向量距离拉远。

通过大规模的高频迭代计算，图像特征的坐标轴和人类语言（文本）的特征坐标轴，被强行拉升映射入同一个**公共的多模态潜在空间（Multimodal Latent Space）**中。这也是首次让模型在语义底层将“苹果的图片”与“苹果这个词”真正关联了起来，实现了视觉与文字的跨模态协同对齐。

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents (like one shade of blue). Flat design, no 3D effects, no clutter. Draw two funnels: one takes an image icon, the other a text document. Their outputs (arrows) point towards a central shared circle or space where they align.)]

3. 面向生成式重塑：主流大语言模型的图文拼接架构

虽然 CLIP 能够很好地判定“这张图对应哪句话”，但它不具备基于文本指令或图像进行发散问答的长文本生成能力。因此，研究界提出了多模态大语言模型 (VLM)，即通过模块拼接的方法为 LLM 接上视觉接收器。

当前主流的 VLM（如 LLaVA，Qwen-VL）普遍遵循一种三段式的套娃架构：

第一部分：视觉编码器 (Vision Encoder) 模型的最外部通常使用预训练好且冻结参数（或部分解冻）的 CLIP 或 SigLIP 视觉塔。当用户上传一张图像时，视觉编码器会将其切分为若干大小固定的像素块补丁（Image Patches），输出对应的视觉特征矩阵。
第二部分：跨模态连接层 / 投影头 (Projector) 由于大语言模型的主干仍无法直接读取视觉编码器的标准输出格式，开发者在两者之间引入了一个过渡层。常见的设计为一个简单的多层感知机（MLP）连接管或带有重采样机制的交叉注意力提取器。它的作用是一个“格式转换翻译官”，将图像特征矩阵重组投影为能够无缝融入语言模型序列的特定维度向量。
第三部分：大语言主模型 (LLM Backbone) 经过投影头转换后的“伪装”图像特征（Image Tokens），被视作大语言模型能够理解的一维输入词元系列，并配合用户的文本提问的 Prompt 输入，一同送入到诸如 LLaMA 或百川等百亿规模底座的 Transformer 引擎中处理，从而进行后续的因果自回归生成和逻辑推理。

这三步接力流程，使文本基础架构成功融合了外部视觉感知模块，大幅拓宽了大语言模型在工业与民用场景中的适用维度。

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents (like one shade of blue). Flat design, no 3D effects, no clutter. Draw three distinct blocks in a sequence: a camera icon, a simple bridge connector block, and a large brain icon. Straight arrows connect them left to right.)]

下一章预告：多模态不仅停留在静态图像提取中。当我们试图让模型突破时间轴屏障，连续一致地模拟物理现实场景生成复杂的连续视频画面时，需要引入更为宏大的技术积木。请看下一章：8.2 从扩散到物理引擎：视频生成原理剖析。

1. 模态之间的语义鸿沟​

2. 破壁基石：CLIP 模型的对比学习​

2.1 结构与数据集​

2.2 对比学习机制 (Contrastive Learning)​

3. 面向生成式重塑：主流大语言模型的图文拼接架构​

目录

1. 模态之间的语义鸿沟

2. 破壁基石：CLIP 模型的对比学习

2.1 结构与数据集

2.2 对比学习机制 (Contrastive Learning)

3. 面向生成式重塑：主流大语言模型的图文拼接架构