【词汇专栏】嵌入(Embedding):把一切变成 AI 能懂的“数字地图“

张开发
2026/4/17 16:05:29 15 分钟阅读

分享文章

【词汇专栏】嵌入(Embedding):把一切变成 AI 能懂的“数字地图“
嵌入Embedding把一切变成 AI 能懂的数字地图AI 不认识猫这个字也不认识一张猫的照片。但在它的数字地图里猫和狗挨得很近和宇宙飞船离得很远。这就是嵌入。一句话定义嵌入Embedding是一种将离散的数据文字、图片、音频等转换为连续向量的技术使得语义上相似的内容在向量空间中也彼此接近。为什么需要嵌入计算机只认识数字不认识文字、图片或声音。最原始的方法——独热编码One-Hot Encoding 词典[猫, 狗, 鱼, 鸟] 猫 [1, 0, 0, 0] 狗 [0, 1, 0, 0] 鱼 [0, 0, 1, 0] 鸟 [0, 0, 0, 1] 问题 1. 猫和狗都是动物但它们的向量 [1,0,0,0] 和 [0,1,0,0] 完全没有相似性 → 模型学不到它们的关系 2. 词汇量10万个 → 每个词就是一个10万维的向量极其稀疏浪费 3. 无法表示新词嵌入的解决思路用一个低维的、密集的向量来表示每个词且让语义相近的词在向量空间中距离更近。通俗类比把世界映射到一张语义地图想象一张巨大的地图每个词都是地图上的一个点 - 猫和狗挨得很近都是宠物 - 猫和老虎也比较近都是猫科动物 - 猫和汽车离得很远 - 国王和女王离得很近 - 男人和女人离得很近 这张地图的维度不是2维东西南北而是几百甚至几千维 但原理一样语义相似 距离近最著名的例子——词向量的数学之美向量(国王) - 向量(男人) 向量(女人) ≈ 向量(女王) 向量(巴黎) - 向量(法国) 向量(日本) ≈ 向量(东京) 模型自己学会了这些关系技术演变从 Word2Vec 到大模型嵌入第一代静态嵌入2013-2017方法年份特点Word2Vec2013Google 提出开创词嵌入时代GloVe2014斯坦福提出结合全局统计信息FastText2016Facebook 提出考虑子词信息这些方法的共同特点一个词只有一个固定的向量不随上下文变化。Word2Vec的问题 苹果 不管出现在哪里都是同一个向量 → 我吃了一个苹果 中的苹果水果 → 我买了一台苹果 中的苹果品牌 → 两个苹果用同一个向量表示丢失了语境信息第二代上下文感知嵌入2018-至今方法年份特点ELMo2018同一个词在不同语境下有不同向量BERT2018双向上下文理解影响深远GPT系列2018Transformer 架构的嵌入BERT的嵌入 我吃了一个苹果 → 苹果的向量偏向水果 我买了一台苹果 → 苹果的向量偏向科技品牌 同一个词不同的语境不同的向量第三代大模型嵌入2023随着大模型的发展嵌入不再只是词的专利嵌入类型说明代表模型文本嵌入段落、文章级别的语义向量OpenAI text-embedding-3、BGE图像嵌入图片的语义向量CLIP本专栏P08、ViT音频嵌入语音片段的向量Whisper、Wav2Vec2多模态嵌入文字和图片在同一个空间CLIP、LLaVA代码嵌入代码片段的语义向量CodeBERT、StarCoder嵌入的维度多少维才合适维度太低如3维 → 表达能力不足很多语义关系表示不了 维度太高如10000维 → 计算量大存储大容易过拟合 常见选择 Word2Vec100-300维 BERT768维 GPT-312,288维 OpenAI text-embedding-3-large3,072维嵌入的核心应用1. 搜索和推荐传统搜索关键词匹配 搜索苹果 → 找包含苹果二字的文章 → 搜不到水果iPhone相关的文章 嵌入搜索语义匹配 搜索苹果 → 找和苹果向量接近的文章 → 能找到水果、科技品牌、甚至富士相关的文章2. RAG检索增强生成参见词汇专栏 W03RAG 用户问题 → 问题嵌入向量 ↓ 在知识库中搜索最接近的文档 ↓ 把找到的文档 问题一起给 AI ↓ AI 基于文档内容回答 嵌入是 RAG 系统中检索步骤的核心技术3. 聚类和分类把所有文章转换成向量 → 用算法自动分组 → 相似主题的文章聚到一起 → 不需要人工标注就能发现文章类别4. 多模态理解CLIP 的嵌入空间 一只猫的文字向量 ←→ 猫照片的图像向量 → 两者在这个空间中非常接近 → 让 AI 能够看图说话常见误区误区真相“嵌入就是把词翻译成数字”⚠️ 不只是翻译而是把语义关系编码到数字中——相似的东西数字也接近“一个词只有一个嵌入向量”❌ 现代嵌入是上下文感知的同一个词在不同语境下向量不同“嵌入只有文字才有”❌ 图像、音频、视频、代码都可以嵌入“维度越高越好”❌ 维度太高会过拟合和浪费计算需要根据任务选择合适的维度易混淆词辨析嵌入 vs 独热编码独热编码是稀疏的高维表示一个1其余0嵌入是密集的低维表示每个位置都有值嵌入 vs 词元Token词元是文本的最小单位嵌入是把词元变成向量的过程嵌入 vs 向量数据库嵌入是向量本身向量数据库是存储和检索这些向量的系统一句话总结嵌入是 AI 理解世界的翻译系统——它把人类能感知的一切文字、图片、声音翻译成数字同时保留了语义关系。没有嵌入AI 就是一个只会做数学运算的机器有了嵌入它才看懂了这个世界。标签#AI术语#嵌入#Embedding#向量表示#Word2Vec#语义空间#RAG

更多文章