收藏!小白程序员快速入门:快手QARM V2大模型推荐系统实战解析

张开发
2026/4/13 16:20:42 15 分钟阅读

分享文章

收藏!小白程序员快速入门:快手QARM V2大模型推荐系统实战解析
快手QARM V2系统通过融合多模态大语言模型解决传统推荐算法瓶颈采用三段式注意力掩码技术将LLM转为嵌入生成器结合FSQ与残差聚类精准捕捉商品属性。该系统在检索与排序中增强语义理解缓解冷启动问题显著提升广告、电商、直播等场景的转化率与收益实现工业级推荐系统智能化升级。概述快手开发的 QARM V2 系统旨在通过结合多模态大语言模型LLM来解决传统推荐算法中 ID 序列建模的语义匮乏与泛化差等瓶颈。该系统创新性地采用三段式注意力掩码技术将 LLM 转化为高效的嵌入生成器并利用有限标量量化FSQ与残差聚类结合的混合策略精准捕捉商品从宏观类别到微观特征的属性。通过这种语义增强的检索与排序工作流平台能够更深刻地理解用户兴趣并缓解冷启动问题。实验数据证明该方案在广告、电商及直播等核心业务场景中显著提升了转化率与综合收益实现了工业级大规模推荐系统的智能化升级。链接https://arxiv.org/pdf/2602.085591、问题这篇由快手团队提出的论文《QARM V2》主要致力于解决在工业级推荐系统特别是用户序列建模中如何有效引入大语言模型LLM的丰富语义理解能力同时克服其与真实业务需求不匹配的落地难题。具体而言论文详细剖析并着手解决了以下四个核心层面的问题1. 传统基于 ID 的序列建模存在的固有缺陷在传统的工业推荐系统如 GSU 检索和 ESU 排序阶段中用户行为序列严重依赖于物品的 ID 嵌入。这种范式存在三大致命问题•信息密度低ID 只能捕捉粗粒度的交互共现关系无法理解物品细粒度的真实语义即“这个物品到底是什么”且在面对长尾冷启动物品时表现极差。•知识孤岛协同过滤信号被孤立地存储在海量的物品 ID 中。一旦某个物品不再分发下架模型从它身上学到的知识就会完全丢失无法迁移。•泛化能力弱模型高度依赖实时流式训练来追赶最新的交互数据一旦停止更新在线性能就会急剧下降。2. LLM 直接应用于推荐系统时的“两大鸿沟”虽然 LLM 具备密集的语义表达和强大的泛化能力但直接将预训练的 LLM 嵌入特征加入推荐模型中收益通常非常有限。论文指出这主要归结于两个鸿沟•表征不匹配LLM 预训练的目标如图像描述、问答与推荐系统的商业目标如点击率预测不一致。例如在视觉上牙膏和药膏由于管状包装看起来很相似但它们的实际使用场景和商业逻辑截然不同。•表征不可学预训练的 LLM 向量通常被冻结难以在下游推荐任务中进行端到端End-to-End的梯度更新导致其无法灵活适应动态变化的推荐业务。3. 提取业务对齐数据时的“噪声与偏见”问题针对 GSU 阶段为了解决上述“表征不匹配”问题此前的研究如 QARM V1尝试从推荐系统的检索模型中导出物品对如 Item2Item 或 User2Item 共现对作为对比学习信号来微调 LLM。但论文指出这带来了新的问题•严重的曝光偏见与噪声基于统计的检索模型导出的物品对往往受到“热门商品偏见”的影响例如酱油和洗衣液经常被成对导出仅仅是因为它们都非常热门而非它们在业务逻辑上相关。同时单用户的历史行为也充满随机性导致很多物品对在底层语义上毫无关联。4. 语义 ID 生成过程中的“编码冲突”问题针对 ESU 阶段为了解决“表征不可学”问题业界通常将连续的 LLM 向量量化为离散的语义 ID从而让推荐模型可以为其分配独立的 Embedding 并进行端到端优化。•残差 K-means 的簇中心坍塌此前的 QARM 方法采用残差 K-meansRes-Kmeans算法生成语义 ID。由于真实的电商物品分布呈现极度的不平衡长尾分布有密集区和稀疏区K-means 会将簇中心集中在数据密集区。这导致了严重的码本冲突——在购物场景中超过 30% 的不同物品被映射到了完全相同的语义 ID 上使得下游模型无法区分它们极大地影响了推荐的精准度。3. 核心思路和方法快手QARM V2的核心思路是将大语言模型LLM丰富的语义理解能力与工业级推荐系统的业务需求深度融合从而解决长用户序列建模中传统 ID 范式的固有缺陷如信息密度低、知识孤岛、泛化弱并跨越 LLM 直接应用于推荐系统时的“表征不匹配”和“表征不可学”两大鸿沟。其具体方法可以分为以下三大核心模块1. 针对 GSU通用检索单元推理物品对齐机制这一步的目的是解决“表征不匹配”问题让 LLM 生成既具备世界知识又符合推荐业务逻辑的稠密向量。•基于推理大模型的数据清洗与对齐传统推荐系统如 Item2Item Swing 或 User2Item 双塔模型导出的相似物品对往往充斥着“热门曝光偏见”或随机噪声例如将毫不相关的热门商品关联在一起。QARM V2 引入了具备推理能力的 LLM如 Qwen3-0.6B/8B作为“裁判”仅输入物品标题和属性让大模型通过底层世界逻辑来判断这两个物品是否具备真实的语义关联或互补购买关系。通过这种方式过滤掉了超过 10% 的 Item2Item 噪声数据和超过 70% 的 User2Item 噪声数据。•多模态深度问答生成为了加深对短视频、直播等复杂商品内容的理解研究团队使用更大规模的多模态模型如 Qwen2.5-VL-72B 和 Gemini根据物品的图像、OCR、标题等生成高质量的指令问答对QA pairs。•三段式注意力掩码 微调 LLM当前的 SOTA 大模型都是 Decoder-only仅解码架构天生适合生成下一个 Token而不是压缩成一个稠密向量。为了不破坏其预训练范式QARM V2 将输入划分为三段输入段物品标题、图像、OCR 等信息。压缩段包含多个特殊的EMBToken仅能对输入段产生注意力用于将信息压缩成向量。问答段基于输入生成的 QA 文本能对前两段产生注意力。这种设计让 LLM 能够同时进行“下一 Token 预测生成任务”和“批内对比学习向量压缩任务”稳定地将其转化为强大的 Embedding 生成器。2. 针对 ESU精确排序单元Res-KmeansFSQ 混合量化机制这一步的目的是解决“表征不可学”问题将冻结的 LLM 连续向量转化为推荐模型可端到端学习的离散“语义 ID”并极力降低 ID 冲突率。•纯 Res-Kmeans 的缺陷真实的电商物品分布是长尾且不均匀的有密集区和稀疏区。传统的残差 K-meansRes-Kmeans在聚类时其中心会扎堆在数据密集区导致严重的码本冲突即大量不同的尾部商品被分配到了完全相同的语义 ID 上无法区分。•混合量化策略QARM V2 发现前两层的 Res-Kmeans 已经足够识别物品的主类目和核心用途。因此它保留了前两层的 Res-Kmeans数据自适应来捕捉粗粒度语义结构但在最后一层它创新性地引入了 **FSQ **。•FSQ 的作用FSQ 是一种与数据分布无关Data-Independent的量化方法它提供预定义的、均匀分布的网格空间。这相当于在最后一步通过“基于规则”的硬性切分确保了细粒度特征的均匀离散化从而将 ID 冲突率从 77.92% 大幅降低至 32.39%。3. GSU/ESU 的端到端整合工作流最终这些生成的特征被无缝整合到推荐系统处理用户终身长序列的两阶段流程中•在 GSU检索阶段直接使用 LLM 编码生成的业务对齐 Embedding通过向量内积相似度从用户海量的历史行为序列中语义感知地检索出与目标物品最相关的 Top-K 历史子序列。•在 ESU精排阶段将物品的原始 ID 与 Res-KmeansFSQ 生成的三层离散语义 ID拼接映射为可学习的 Embedding。随后模型利用目标注意力机制Target Attention对检索出的子序列进行特征交互并输入到多任务混合专家系统MoE中进行 CTR点击率和 CVR转化率的联合预测。通过这种端到端End-to-End的二元交叉熵损失优化语义 ID 能够直接助力下游排序任务。4. 实验效果为了验证其核心机制基于推理的大模型物品对齐、Res-KmeansFSQ混合量化的有效性在公共学术数据集以及快手拥有 4 亿日活用户的真实工业场景中进行了详尽的离线和在线实验效果非常显著。1. 离线实验效果论文在公共数据集和快手三大核心业务线广告、电商、直播的数据集上进行了离线评估指标全面超越现有基线。•公共数据集 (Amazon Book)QARM V2 取得了最高的AUC 70.33%显著击败了经典的基于 ID 的长序列推荐基线模型如使用最新行为的 DIN 的 67.69%以及 SIM-hard 的 67.15% 和 SIM-soft 的 69.57%。这证明了其对齐机制和混合量化技术在跨平台的泛化能力。•工业级大数据集 (快手平台)•广告业务大盘 GAUC 显著提升了1.10%从 63.06% 提升至 64.16%。•电商业务在不同的电商场景中CTCVR点击后转化率的 GAUC 提升了0.40%从 74.97% 提升至 75.37%。•直播业务长时观看Long View的 GAUC 实现了0.50%的最大提升。• 洞察发现实验中还发现不进行去重处理的用户行为序列保留对同一作者的重复交互能更好地捕捉用户的观看时长变化和偏好模式其离线 AUC 始终高于去重后的序列。2. 在线 A/B 测试效果QARM V2 已在快手生产环境中全量部署并进行了为期数周的在线 A/B 测试直接带来了巨大的商业增长。•广告场景广告收入大幅提升了4.873%同时成本优化了 3.942%。•电商场景在其中一个核心电商场景中GMV商品交易总额提升了 5.612%订单量提升了 4.834%其他电商子场景的所有指标也显示出一致的增长。•直播场景各项消费指标点击、观看时长和互动指标点赞、评论、关注等均有提升特别是在冷启动阶段表现尤为突出如点击提升 3.231%观看时长提升 2.961%。3. 核心机制消融与深入分析论文深入评估了 GSU 检索端和 ESU 精排端的两项核心技术创新带来的直接收益•GSU端推理物品对齐的召回质量提升团队使用用户的真实点击和订单作为 ground truth 来评估召回命中率。与上一代 QARM 相比QARM V2 在点击预测的HR200 上从 7.77% 提升至 12.5%相对提升 60.9%订单预测的HR200 从 11.3% 提升至 20.0%相对提升 77.0%。这意味着经过推理大模型清洗后的特征能够更精准地将真正相关的物品排在更靠前的位置。•ESU端Res-KmeansFSQ 极大地降低了“编码冲突”为了验证 FSQ 技术的引入对降低语义 ID冲突的贡献论文分析了离线哈希映射结果。• 纯 Res-Kmeans 的上一代 QARMID 冲突率高达77.92%平均一个 ID 对应 129.33 个物品导致精准命中率 HR1 仅为 80.3%。• 而采用混合量化的QARM V2 (Res-KmeansFSQ)成功将冲突率大幅降低至32.39%平均一个 ID 仅对应2.5个物品HR1 飙升至95.2%。这证明了该策略有效缓解了冲突赋能了精准检索。4. GSU 检索案例的直观可视化分析论文还统计了 QARM V2 的独占召回率即仅被 QARM V2 召回而未被传统基线SIM召回的物品比例。结果显示在点击、订单和曝光上独占率分别高达63.6%、57.9% 和 65.1%。•案例对比避开硬负样本可视化结果显示传统的端到端 SIM 模型经常会召回与目标物品**类别不符或仅仅外观相似硬负样本**的无关物品例如目标是手机壳却召回了外观相似的珠宝手链。•语义感知相比之下QARM V2 能够跨越视觉上的差异精准召回在类别高度一致且符合用户底层语义意图的新颖物品极大地扩展了用户兴趣的探索边界。5. 结论本文的结论和对未来的展望主要集中在以下几个核心方面1. 提出了统一的语义推荐框架 QARM V2论文总结指出QARM V2 成功地利用了大语言模型LLM丰富的语义理解能力从根本上增强了工业级推荐系统中用户终身序列建模的能力有效弥合了 LLM 世界知识与推荐系统商业需求之间的鸿沟。2. 检索端GSU的突破推理物品对齐与生成器微调•推理物品对齐为了解决“表征不匹配”问题研究团队从 Item2Item物品到物品和 User2Item用户到物品两个视角引入了基于 LLM 推理的物品对齐机制。通过引入大模型作为“裁判”进行拒绝采样成功过滤了由于热门曝光偏见产生的噪声生成了真正与商业逻辑对齐的 LLM 稠密向量大幅提升了通用检索单元GSU的召回质量。•三段式微调范式为了不破坏现有大模型的基础能力论文提出了一种**“三段式注意力掩码”**的 LLM 微调范式成功将仅解码Decoder-only架构的 LLM 转化为了一个强大的 Embedding 生成器使其能够同时处理对比学习任务和文本生成任务。3. 排序端ESU的突破Res-KmeansFSQ 混合量化降低冲突为了解决大模型特征在推荐系统中“不可学”的问题论文在精确排序单元ESU阶段提出了Res-KmeansFSQ 混合量化方法。该方法巧妙结合了残差 K-means适应数据分布与有限标量量化 FSQ规则均匀分布生成了多层级的离散语义 ID极大地降低了编码冲突率使得这些语义 ID 能够与排序模型进行高效的端到端优化。4. 工业级落地的显著成效与消融实验验证在快手真实的短视频和直播平台上进行的大量实验和全量部署证明QARM V2 在 GSU 和 ESU 的各项能力上均取得了显著提升并在多个核心业务场景中带来了实质性的商业收益。同时详细的消融实验进一步证实了“LLM 推理拒绝采样”对于保持业务分布与世界知识相一致的绝对必要性。5. 未来展望在未来的研究方向上研究团队计划探索更细粒度、更长且并行的 VQ 代码Vector Quantization codes并期望这些量化代码能够直接扩散diffused回原始的多模态特征中以进一步挖掘多模态大模型在推荐系统中的潜力。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

更多文章