8.2 视频生成核心技术：从扩散模型到DiT架构

2026年2月26日

阅读需 6 分钟

wqz

构建动态的数字世界

在前文（8.1）中，我们讨论了如何利用视觉模型让 AI 能够“看懂”静态图片。将视野拓展至视频领域，任务不仅是从静态文本映射到画面，还需要保持时间维度上的连贯性和对物理世界基本规律（如重力、碰撞、水波纹等）的遵循。

早期的 AI 绘画模型（如 Stable Diffusion 和 Midjourney）确立了扩散模型的基石；而到了以 Sora 为代表的高连贯长视频生成时代，底层架构完成了从纯扩散 (Diffusion) 向 DiT (Diffusion Transformer) 的进化。本章，我们将剖析生成式视频模型演进的两大核心架构体系。

1. 扩散模型 (Diffusion Model) 的基本原理

要理解复杂视频是如何被凭空生成的，首先需要解析静态图像扩散的生成过程。扩散模型摒弃了直接“绘画”的思路，采用了一种“加噪”再“去噪”的过程。

1.1 加噪与去噪的前后向循环

其核心机制基于对真实数据的随机破坏和网络预测恢复：

前向过程（加噪破坏）：从一张高清原图开始，算法系统性地向像素中逐层添加纯高斯噪声。经过数百步甚至上千步的迭代，原图最终会变成一张无法分辨内容的随机噪点分布图。
逆向过程（去噪重建）：在训练阶段，模型内部的神经网络（多为 U-Net 结构）被要求学习预测上一步引入的具体噪声残差。经过海量的学习后，当用户在推理时输入一段提示词并提供一张纯噪声图时，模型便能依循学到的规律，逐步将这些随机噪声雕刻回符合文本要求的连贯画面。

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents (like one shade of blue). Flat design, no 3D effects, no clutter. Draw a clean image icon progressively degrading into scattered dots (noise) moving right, then a U-shape arrow curving back left mapping the dots back into the clean image.)]

2. 算力瓶颈突破：潜空间扩散 (Latent Diffusion)

如果我们试图直接在高分辨率（如 4K, 3840x2160）级别的纯像素空间里去运行上述几百轮的去噪矩阵乘法，单台显存将直接溢出。

针对原始像素级别大计算量的问题，工业界（特别是由 Stable Diffusion 推行的高效方案）引入了一个关键的工程巧思：在潜空间（Latent Space）生成图像。

2.1 VAE 降维压缩

系统引入了一个名为特征自编码器（通常是 VAE，变分自编码器）的组件。它在预处理阶段，将高分辨率的像素数据大幅度下采样并压缩成高度浓缩的底层语义特征块。这种压缩操作将图像数据量级缩小了几十甚至数百倍，同时去除了视觉上的高频冗余，仅保留表征所需的最核心语义。

2.2 在低维空间计算

繁重的扩散降噪过程（U-Net 推理）不再处理肉眼可见的 RGB 像素，而是全部搬进这个尺寸非常微小的“潜空间”进行闪电计算。当逆向去噪完成并得出正确的“特征结晶”后，系统最后再调用 VAE 的解码组件，将这块微小的特征重新放大解码为原始的超清图像输出。这一改动极大降低了显卡资源门槛。

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents (like one shade of blue). Flat design, no 3D effects, no clutter. Draw a large square shrinking into a tiny square. The tiny square goes through a loop, then expands back into a large square. Minimalist style.)]

3. 从 U-Net 向 Transformer 的演变：DiT (Diffusion Transformer)

潜空间扩散虽然让图像生成得以普及，但当技术前哨试图生成具有几十甚至上百帧的长篇连续视频时，传统扩散模型常用的 U-Net 底座架构逐渐暴露出弱点：其感受野和长时相关性记忆存在天生限制。这就导致视频容易出现闪烁跳变、人物肢体长出多余残影，或者明显违反物理规律（比如汽车穿墙而过）的现象。

为了赋予视频生成模型全局的长视野时空一致性，研发人员决定使用大语言模型（LLM）中证明极为成功的底层积木——Transformer。两者结合，诞生了奠定当今顶尖视频基座的标准：DiT (Diffusion Transformer)，这也是 Sora 强大涌现能力的核心依赖。

在实施方案上：

模型并不把视频当成单独的连续画框，而是将其在“时间+空间”两个维度上同时切割成规范的微调小块（Spacetime Patches）。
在模型眼中，每一块微小的时空图像补丁被等同于大语言模型处理自然语言文本时的一种 "Token"。
通过在 Transformer 注意力矩阵（Self-Attention）中引入位置编码等机制，模型在进行全局推演时，能充分关联并锁死远端（第一秒到最后一秒）画面在不同帧之间应该遵循的相对平移与物理形态转化。

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents (like one shade of blue). Flat design, no 3D effects, no clutter. Draw a film strip or series of frames cut into a grid of tiny square patches. These patches flow into an abstract Transformer network block.)]

4. 总结

借由 Diffusion 对细节纹理卓越的刻画能力，以及 Transformer 对于长内容在宏观排列结构上的全局掌握，如今的大规模视频生成系统实际上正在充当一种隐式的“世界模拟器物理引擎”。这并非简单堆砌算力所能达到，而是将文本世界与连续流动的物理空间坐标通过模态对齐手段完美融合的里程碑体系。

1. 扩散模型 (Diffusion Model) 的基本原理​

1.1 加噪与去噪的前后向循环​

2. 算力瓶颈突破：潜空间扩散 (Latent Diffusion)​

2.1 VAE 降维压缩​

2.2 在低维空间计算​

3. 从 U-Net 向 Transformer 的演变：DiT (Diffusion Transformer)​

4. 总结​

目录