闭环的最后一步
我们在上一章讲了 Tokenization,它把单词变成了数字 ID(比如 Cat -> 673)。
但这里有一个巨大的问题:
ID 673 (Cat) 和 ID 674 (Car) 在数字上只差 1,但在意义上差了十万八千里。
而 ID 673 (Cat) 和 ID 8912 (Dog) 数字差很远,意义上却很近。
如果直接把这些整数 ID 喂给 Transformer,它会疯掉——因为它找不到规律。 这就是 Embedding (嵌入层) 登场的地方。
1. 什么是 Embedding?
简单说,就是把字典里的每一个 ID,映射到一个高维空间里的坐标 (Vector)。
想象你走进了一家巨大的无人超市。
- Token ID 就像是商品的条形码(无意义的数字)。
- Embedding 就像是商品在超市里的具体位置坐标
(货架3, 层数2, 左侧10米)。
在这个“语义超市”里,摆放是有规律的:
- 🍎 苹果旁边一定是 🍌 香蕉(水果区)。
- 🧴虽然洗发水瓶子形状像饮料,但它离苹果很远(日化区)。
Embedding 就是让 AI 即使不认识字,只要看坐标,就知道“苹果”和“香蕉”是亲戚。