闭着眼睛画出整个世界
在 8.1 中,我们让大模型睁开了眼睛看图。 但真正的“造物主”能力不应仅仅停留在凝视和理解。它更应该能虚空造物。
从前两年火爆出圈的 AI 绘画(Stable Diffusion / Midjourney),到 2024 年震碎整个好莱坞影视工业和硅谷认知底线的视频生成神级标杆 Sora。 从画一张静止的图片,到直接生成拥有极其严丝合缝物理规律(倒影、水纹、重力、碰撞)的长视角 60 秒极高清流畅视频。这绝不是简单的算力堆砌加幻灯片组合。 本章,我们将探底生成式视觉大模型的最底层王道血脉:扩散模型(Diffusion)与最强架构 DiT (Diffusion Transformer)。
1. 雕刻噪点:扩散模型 (Diffusion) 的艺术
在生成清晰可认的图片之前,我们先要明白一张图是怎么被“凭空想象”出来的。 这套理论的名字听起来极其硬核反直觉:扩散模型。它是从极其混乱的一堆没有意义的老电视雪花马赛克噪点里,一点点地逆向极其痛苦耐心地往回刮去灰尘、最终雕刻还原出极其绝美的高光纹理图像。
1.1 加噪与去噪的沙漏循环
它的底层逻辑是一个精妙绝伦的正反双向实验:
- 正向破坏(加噪):我们拿一张极其高清的“猫”照片。算法极其恶劣无情地在这个猫身上一步步地洒满雪花噪点,直到无数步后,这张好端端的猫彻底变成了一团如乱麻狗皮膏药般的极其纯粹的纯黑色瞎眼杂乱无章的电视机高斯噪音波。
- 逆向神迹(去噪重建):在这个极其漫长的正向破坏过程中,算法一直在背后极其偷偷且拼命地在显卡里疯狂去记忆每一次极其细微叠加的那点灰尘降噪幅度函数。等到它把全天下的照片极其反复折磨加噪拆解并记住极其恐怖的降噪反演抵消规律后,它出师了。
当你在聊天框极其期待地输入一句:给我画一只猫。
系统极其冷漠地先给你极其随性抛出一张你极其看不懂彻头彻尾的纯乱码雪花图。但那个早已被极其特训练熟的神级 U-Net 降噪大脑,会极其精准极其严厉地看着这张全乱噪点,极其毫不手软地在每一次极其深度的几十到上百轮递归摩擦中,强行刮掉一层又一层的灰尘。最终你极其目瞪口呆地看着一张原本虚无混沌的噪点图里极其极具魔法张力般地凭空睁开了两只极其水灵的猫眼和绒毛!