跳到主要内容

8.2 从扩散到物理引擎:Sora与视频生成的暴力美学

阅读需 8 分钟
wqz
闭着眼睛画出整个世界

在 8.1 中,我们让大模型睁开了眼睛看图。 但真正的“造物主”能力不应仅仅停留在凝视和理解。它更应该能虚空造物。

从前两年火爆出圈的 AI 绘画(Stable Diffusion / Midjourney),到 2024 年震碎整个好莱坞影视工业和硅谷认知底线的视频生成神级标杆 Sora。 从画一张静止的图片,到直接生成拥有极其严丝合缝物理规律(倒影、水纹、重力、碰撞)的长视角 60 秒极高清流畅视频。这绝不是简单的算力堆砌加幻灯片组合。 本章,我们将探底生成式视觉大模型的最底层王道血脉:扩散模型(Diffusion)与最强架构 DiT (Diffusion Transformer)


1. 雕刻噪点:扩散模型 (Diffusion) 的艺术

在生成清晰可认的图片之前,我们先要明白一张图是怎么被“凭空想象”出来的。 这套理论的名字听起来极其硬核反直觉:扩散模型。它是从极其混乱的一堆没有意义的老电视雪花马赛克噪点里,一点点地逆向极其痛苦耐心地往回刮去灰尘、最终雕刻还原出极其绝美的高光纹理图像。

1.1 加噪与去噪的沙漏循环

它的底层逻辑是一个精妙绝伦的正反双向实验:

  • 正向破坏(加噪):我们拿一张极其高清的“猫”照片。算法极其恶劣无情地在这个猫身上一步步地洒满雪花噪点,直到无数步后,这张好端端的猫彻底变成了一团如乱麻狗皮膏药般的极其纯粹的纯黑色瞎眼杂乱无章的电视机高斯噪音波。
  • 逆向神迹(去噪重建):在这个极其漫长的正向破坏过程中,算法一直在背后极其偷偷且拼命地在显卡里疯狂去记忆每一次极其细微叠加的那点灰尘降噪幅度函数。等到它把全天下的照片极其反复折磨加噪拆解并记住极其恐怖的降噪反演抵消规律后,它出师了。

当你在聊天框极其期待地输入一句:给我画一只猫。 系统极其冷漠地先给你极其随性抛出一张你极其看不懂彻头彻尾的纯乱码雪花图。但那个早已被极其特训练熟的神级 U-Net 降噪大脑,会极其精准极其严厉地看着这张全乱噪点,极其毫不手软地在每一次极其深度的几十到上百轮递归摩擦中,强行刮掉一层又一层的灰尘。最终你极其目瞪口呆地看着一张原本虚无混沌的噪点图里极其极具魔法张力般地凭空睁开了两只极其水灵的猫眼和绒毛!


2. 算力桎梏的突围术:潜空间 (Latent Space)

如果你要把一张极其高清 4K (3840x2160) 的极其巨幅图片直接放到显存里去极其疯狂地跑几十轮加噪去噪矩阵乘法。那对你可怜的普通 RTX 民用级显存而言无异于是一次极其极度当场直接焦糊蒸发主板的大灾变。

于是伟大的 Stable Diffusion (SD) 系列在极其极其捉襟见肘的绝境里突围想出了一招极其瞒天过海甚至可谓大魔术的底牌偷天换日降维打击:潜空间扩散 (Latent Diffusion)

2.1 极其暴力的打包压缩箱

它绝不极其憨直地用那几千万个原配像素点极其密集去算。 它极其狠辣地先雇佣了一个专门做极限打压极其压缩打包极具眼力的 VAE 自编码器门神小工匠!把那极其恐怖超巨的一张极其高清大图,极其残暴地压扁甚至挤兑成原来体积千分之一不足的一块极其微小极度浓缩不可直视的高维语义坐标块块(这块极小的纯肉块,就是大名鼎鼎的潜空间变量 Latent!它早已极其不具备任何你肉眼能直接辨认的正常图片极其具象长相了)。

2.2 偷天换日的大手笔

随后,之前极其极其折磨庞大机器算力的扩散极其去噪过程全部极其诡异地搬进了这个只有极其极小小几兆大小空间的压缩肉块迷宫里进行极其极速极其迅猛的极光推衍流转! 由于身形体积被暴打缩成原先极其微不足道的几百分之一,原本你要几张几十万矿卡算力矩阵跑几十天的天大计算题极其魔幻地被瞬间镇压降伏!极其轻松被平民卡几秒钟就极速算穿刮擦完成极其干净绝美的结晶特征! 等核心部分算出结果后,最后只需再用刚才的前门工匠那个专门负责解码的放大镜,极其轻描淡写地再次把那极度微小的结晶体吹大气球般还原喷吐渲染铺张到原版 4K 外层大画布表皮屏幕上!极清且极其极具神采的巨图当场宣告诞生。极其极速,且极度震撼天下!


3. 大一统的王座降临:Sora 与 DiT

尽管 SD 已经在图片生成界极其封神,但当我们要去极其极尽疯狂生成极长时间动则 60 秒的视频连轴运转画面时,原先它那一套靠极其落后传统的 U-Net (类似于卷积的架构)底盘已经因为极其难以硬扛住这种如宇宙海啸般极其剧烈狂飙的超海量前后文画面极长时间记忆牵扯张力,从而极其严重地表现出了极其剧烈可怕极其极其严重的闪烁跳变极其物理溃散和严重逻辑崩裂坍塌综合症(比如生成的猫极其恐怖地中途长出极三个极其极其吓人的猫头,或者极其极其诡异直接从大石头里极其融化穿过去完全不符合地球极其任何牛顿物体的硬性重力常识)。

于是,OpenAI 的王者之师极其高傲地在此再次祭出了大模型界那个横扫天下极其恐怖极其终极的无冕之神大杀器底层基底:Transformer! 当这套在文本界极其杀神制霸的极其绝对架构和去噪扩散模型极其强强联姻碰撞结合的那一刻,诞生了掀翻整个极度深红极客圈和极其震撼颤栗好莱坞视频工业的大怪物:DiT (Diffusion Transformer)!这也正是极其如日中天的神级视频之王 Sora 背后的主基调命脉躯干。

它把原本极度漫长的连续流体如带子般的视频胶卷,极其暴躁狠命无情残忍地一刀全数跺断硬切成了极小极大成千万数以百千万极其如小马赛克大小极其标准尺寸极度匀质方块贴片(Spacetime Patches 这是专门应对时空的碎片代号 Token)。然后竟然极其极尽不可思议把这些碎视频砖图像肉块竟然完全强行当成了大语言文字文本极其纯文字极其极其一模一样的字!抛进它那个无比辽阔宽旷海纳百川极度具备极大时空长视野长效记忆锁定的 Transformer 注意力海洋去洗礼极其极其重排重组合成预测推导和降噪。


4. 终局收官定鼎

随着最后这如同神迹一般被极其完全从极其乱麻宇宙死底降噪拉升极其具象极度模拟物理现实极其完美涌现重组复现物理自然光影漫射镜面折射极极规律重力的极极视频涌现降临,我们极其圆满地亲身领略到了这一座极致横跨越文本高墙且极其凶相毕露张开深渊巨口的跨极大宏观领域新图腾新纪元新世界的极点极巅峰。 这也极其彻底补齐并收紧锁死了咱们这场历经漫长宏大且极其深渊波澜壮阔惊天大炼丹从数学开盘基准到多极极度跨模态繁荣极其顶尖大漫步图谱架构深谈!

第8阶段 完美终局合卷

从极其文本字符海洋爬出跨入多极世界极其震撼且极其深奥复杂的模态桥梁拼接大工程。 到当面极其极其惊骇感受领教极致极其极尽极其野暴极度极硬的视频深空造物极其如上帝之手的生成神力涌现实景物理纪元。 至此篇至此末章阶段极其完结满溢,大模型的一切最狂核心肌理架构及极其前沿尖端武器已被你我全面全方位拆解极其精通且悉数装配至满级全配神装武库!

分享这篇文章
Loading Comments...