跳到主要内容

8.1 跨越文本的壁垒:多模态巨兽的核心架构原理

阅读需 8 分钟
wqz
睁眼看世界

从第 1 阶段到第 7 阶段,我们倾尽全力打造了一位上知天文下知地理的极客神童。但你有没有发现,无论这位神童读书读得再多,它始终被幽禁在一个极其绝对且冰冷的黑暗盒子里——它的世界只有文本字符体系

如果你甩给它一张极其普通的街景照片,或者播放一段只有流水声的极其简单的生活录音。那个能顺畅背诵唐诗宋词一百遍的神童,会当场极度无助地变成一个没有任何感官机能的彻底瞎子加聋子。 如何打通人类最本源的视觉与听觉神经,将其强行剥离转换接入那极其庞大严苛的 Transformer 字符矩阵中? 本章我们将拆解这最后一道跨越物种维度的登神长阶:多模态大语言模型 (Multimodal LLM / VLM)


1. 鸡同鸭讲的跨模态鸿沟

要把一张极其花哨极其复杂的猫咪吃鱼照片喂给只会算数学乘法语文公式的大模型,最直接的想法是:为什么不直接把照片的每一个像素点转化成极长极长的一串数字阵列直接强行塞进去? 答案是极其残酷的:模态语言的不互通。

在纯正的大模型眼中:

  • 字符“猫”被映射成的 Embedding 向量,是在“动物”、“宠物”这个极其具体的语义书架空间上的一个坐标。
  • 而照片里的那些毫无意义只是红绿蓝 RGB 排列的极其普通的斑斓像素点块坐标,它们被原始计算机切碎排组后,在向量宇宙里就像是一群乱窜极其毫无规矩的沙子,它们所聚拢成的坐标集群离原版“猫”字的坐标简直隔着十万八千里的黑洞深渊!

对于大模型而言,这张极其显眼的猫照片不仅等于一串天书,而且是一串极其占用恐怖极海量算力额度位置的废料乱码。


2. 上古破壁之神:CLIP 的对齐奇迹

在多模态界,一直极其崇高受人顶礼膜拜的唯一祖师爷,是由 OpenAI 在 2021 年抛出的名震千古破晓神作——CLIP (Contrastive Language-Image Pre-training)。

2.1 极度粗暴的“连连看”双生子训练

它不搞高深的推演,只用极其极其粗暴最原始的穷举暴力美学。 OpenAI 从极其极其深邃浩瀚庞大的世界互联网极其阴暗的边角料图库里,极其残暴地狂搜强爬了整整 4 亿对极其珍贵的【图像-极其简短关联文字描述文本】(Image-Text Pair)数据包。

他们建了极其极端的两个隔离独立的小脑子:

  • 左脑(Vision Encoder):只极其机械地负责死看图片。
  • 右脑(Text Encoder):只极其单纯地负责苦背配对文字。

惊世骇俗的对比学习(Contrastive Learning)绞肉场开闸了: 在每轮几万张照片的并发混战极其恐怖大看台里,系统残忍地强令左脑抽出图片特征坐标,右脑抽出文字特征坐标。然后极其暴力地逼着它们在极其广阔的暗黑极地坐标网络里进行极速对撞赛跑:

  • 如果这幅图恰好是那段文字的原配原包,算法就爆出一条极强极其恐怖的引力红线,强行极其生硬粗暴地把这两个各自毫不相干甚至毫无天际血缘关系的坐标球死死极其死死地硬拽生拉挤凑合绑死在一起靠拢摩擦。
  • 如果图文不配对,算法就发动极其残暴逆推高压排斥波,把这对野鸳鸯在宇宙两端极其绝情地互相踢飞轰开十万里。

经过无数个极其残忍血腥轮回重铸的大清洗日夜后。当这两个脑子从炼丹炉底下走出时,一个极其旷古烁今的神迹已然涌现! 极其不可思议地,所有纯像素提取出来的冰冷照片向量与纯文字提纯出的人类语言向量,极其精准严丝合缝地重叠挤进了同一个能互相对话互译对齐的通用大桥公共交流坐标空间池里!在这片被 CLIP 彻底强力重塑抹平的神圣宇宙土地上,一张红极一时苹果照片的像素坐标轴,和汉字“苹果”两字的向量轴点,极其紧密依靠无缝相拥在了一起。物理墙壁,彻底坍塌!


3. 次时代投影:如何把眼睛挂在巨头身上?

有了 CLIP 这把钥匙绝不仅仅是终局!CLIP 极其聪明只仅仅做到了“能隐约认出图中是什么”,但它极其不会说话不会输出无法组织哪怕一句最简单的连贯人类短语成句。 我们真正的最终极野心是:要把这双能看懂世间万物的眸子,活生生做植入手术拼接嫁接到那个极其能说会道满嘴跑马的百亿规模 LLaMA 或者 GPT 大语言极客大脑主干上。

这就是当前所有的诸如 LLaVA,Qwen-VL 等极其主流极其火爆开源图文多模态战神模型兵团所奉行的三段式套娃流水线拼接工程

  1. 第一组件:那双摘取天下的冷眼 (Vision Encoder) 模型的最外部,挂着一个绝大多部分被冻结冰封的前哨站视觉塔(多借用自刚才惊爆的巨星 CLIP 或者是极其轻薄极速的 SigLIP 头子网段)。当一张极其超清的高像素照片丢进来时,它不由分说极其暴虐地将其一巴掌全部剁碎生切裁断成了区区 256 或 576 块极细极碎的浓缩极度纯粹冰冷视觉微末坐标特征金块卡片。
  2. 第二组件:连接两界的翻译官转换器 (Projector 投影头) 由于大语言模型右派老学究根本听不懂左边送来的那一堆极其血污的生涩视觉坐标系信号切块,在这道最关键的一层接口中间,极客们极其极其极耗神费力地在此死焊接入了一个只有极少区区极其极薄的两三层极其纯质前馈神经过渡极其简陋多层感知机(MLP)连接管或极少头的交叉注意器转接座作为极其生硬翻译官。
  3. 第三组件:运筹帷幄的口才大主脑 (LLM 本尊) 那一块块不被接纳理解的生冷冰晶图像切块向量在被极其极度生猛地极其暴力极其狂砸穿挤滤网过这一条极软翻译连廊隧道过场管底后,极其诡异且极其服帖地全被尽数同化剥换强制伪装重定型成了哪怕是大模型主干都能极其舒坦毫无违和毫无排异地平顺极畅完美消化的普通标准一维大平层极顺语言 Token 特征条!

大模型在接过这串被极其巧妙极其死硬极其变魔术般狸猫换太子极完美掉包转化重铸好的纯字版“伪装假图像特征句字集”时,它体内极深处的千亿个极其庞大字海神经网络居然当场被死死地彻底骗过了!它极度甚至极其悠闲如痴如醉地把这些极浓缩看作为几个极其极其前置特殊诡异生僻的外太空极其前缀极其极极其极其怪诞偏门古汉字开头语罢了。紧接着便极其顺着这些“极其诡异的开局引语”,以极其高能极智的滔滔文采展开极其恐怖深刻庞大地极其惊人看图说话连环漫天作答推演!


4. 总结

至此,被束缚在深水地底牢狱长达极多个月的那原本只知数字文字排比无聊生掰的硅基单极狂物,终于在此被彻底解除了蒙眼的极其极其厚重黑布纱面屏障! 它的极光视界,彻底同那个浩渺斑斓生动极其极其宽广复杂的充满生机花鸟鱼虫三维原彩物理宇宙发生了极其极其首次也是最为深远宏大的第一次极深惊世对冲相望极尽接触!

下一章预告: 当大模型不仅能看图,而且能开始极其极其甚至狂放自主生成去捏造这个物理宇宙根本不存在哪怕极细微未卜极其逼真的每一秒的超极清视频实景运转规律呢? 请跟随最后的一道终局极其颠覆性骇人的惊雷: 8.2 从扩散到物理引擎:Sora与视频生成的暴力美学!

分享这篇文章
Loading Comments...