2025_NIPS_CoCoA: A Minimum Bayes Risk Framework Bridging Confidence and Consistency for Uncertain...

张开发

• 2026/6/27 10:06:03 • 15 分钟阅读

分享文章

2025_NIPS_CoCoA: A Minimum Bayes Risk Framework Bridging Confidence and Consistency for Uncertain...

文章核心总结与创新点主要内容本文聚焦大语言模型（LLMs）的不确定性量化（UQ）问题，针对现有基于信息论（依赖token级概率）和一致性（依赖多轮采样语义一致性）的两类方法的局限性，提出了统一的CoCoA框架。该框架基于最小贝叶斯风险（MBR）解码理论，将模型置信度与输出一致性相结合，形成更全面的不确定性评估方法，并衍生出高效的CoCoA Light变体（通过学习函数替代重复采样，降低计算成本）。在问答、文本摘要、机器翻译三大任务上的实验表明，CoCoA及其变体显著优于现有SOTA方法，且在不同模型（LLaMA 3.1 8B、Mistral 7B等）上均展现出稳健性。创新点提出CoCoA框架：以MBR为理论基础，首次将信息论类置信度指标（如序列概率、困惑度）与一致性类指标（语义相似度）通过乘法形式融合，同时捕捉局部模型不确定性与全局语义一致性。设计CoCoA Light变体：通过在无标记数据集上训练轻量辅助模型，近似一致性指标，无需重复采样，在保持性能的同时降低计算开销。全面验证有效性：在7个数据集、3种基础模型及1个大模型（Gemma 3 12B）上验证，涵盖多种解码策略（贪心、最可能采样、MBR解码），均证明其优于现有信息类、一致性类及混合类UQ方法。翻译部分（Markdown格式）AbstractCoCoA：连接置信度与一致性的最小贝叶斯

更多文章

前端开发 2026/6/20 6:53:41

APK Installer终极指南：如何在Windows上快速高效安装Android应用

APK Installer终极指南：如何在Windows上快速高效安装Android应用【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer APK Installer是一款专为Windows平台设计的…

张开发

前端开发 2026/6/24 18:14:19

宝塔面板PHP 7.4环境下SG11扩展安装与版本兼容性全解析

1. SG11扩展与PHP 7.4的兼容性基础遇到"a SourceGuardian loader ixed.7.4.lin to be installed"这类错误提示时，很多开发者第一反应是慌乱。其实这个问题的本质是加密脚本与运行环境不匹配。SourceGuardian（简称SG）是PHP领域知名…

张开发

前端开发 2026/6/20 6:56:04

数位DP、状压DP、树形DP、记忆化搜索

目录一、数位DP AcWing 338. 计数问题二、状态压缩DP AcWing 291. 蒙德里安的梦想 AcWing 91. 最短Hamilton路径三、树形DP AcWing 285. 没有上司的舞会四、记忆化搜索 AcWing 901. 滑雪记忆化搜索： DFS: 纯递推DP: 一、数位DP AcWing 338. 计数问…

张开发

前端开发 2026/6/14 18:24:14

终极指南：使用novideo_srgb免费校准NVIDIA显卡显示器色彩

终极指南：使用novideo_srgb免费校准NVIDIA显卡显示器色彩【免费下载链接】novideo_srgb Calibrate monitors to sRGB or other color spaces on NVIDIA GPUs, based on EDID data or ICC profiles 项目地址: https://gitcode.com/gh_mirrors/no/novideo_srgb …

张开发

前端开发 2026/6/20 6:58:56

【AI前沿】83K Star，6种后端，从零长出技能——Hermes Agent凭什么抢走OpenClaw的用户？

同样是开源AI Agent，OpenClaw选择「接入一切」，Hermes Agent选择「记住一切」。两条路线之争的背后，是AI Agent从工具到伙伴的范式跃迁。PART 1：先讲一个时间线 2026年2月25日，Nous Research在GitHub上安静地推了一个仓…

张开发

前端开发 2026/6/14 18:25:30

双降论文重复率与AI率工具实测，2026高效方案汇总

现在国内高校和期刊普遍采用重复率AIGC率双重审核标准，单一功能的降重或消AI痕迹工具已经难以满足投稿、毕业需求。我们针对知网、维普、Turnitin等主流检测平台做了多轮实测，筛选出几款适配不同场景的高效工具，覆盖中英文论文、本科生初稿到…

张开发

前端开发 2026/6/20 6:57:33

为什么你的多模态模型在西班牙语图文检索准确率暴跌41.7%？——从分词器错位到视觉提示污染的链式归因分析

第一章：多模态大模型跨语言迁移能力 2026奇点智能技术大会(https://ml-summit.org) 多模态大模型（Multimodal Large Language Models, MLLMs）在视觉-语言联合建模基础上，正逐步突破单一语种边界，展现出对低资源语言的…

张开发

前端开发 2026/6/24 18:49:55

干货必看！Biolaminin 521 CTG细胞治疗级别培养基质｜干细胞培养应用技术解析【曼博生物】

摘要： 本文由曼博生物技术团队整理，针对细胞治疗与干细胞研究中体外培养对合规性、无动物源性培养基质的技术需求，基于实验数据解析Biolaminin 521 CTG（CT521）细胞治疗级人重组层粘连蛋白培养基质的基础特性、干细胞培…

张开发

前端开发 2026/6/24 22:29:17

【OSG学习笔记】Day 52: FadeText

osgText::FadeText 用法详解与实战在 OpenSceneGraph（OSG）的文字渲染模块中，osgText::FadeText 是基于距离实现自动淡入淡出的核心类，它解决了普通文字无论远近都保持固定显示的问题，能根据相机与文字的距离自动调整透…

张开发

前端开发 2026/6/24 17:11:04

Android App连接OneNET物联网平台实战：用OkHttp3获取MQTTS设备数据（附完整代码）

Android App连接OneNET物联网平台实战：用OkHttp3获取MQTTS设备数据（附完整代码） 在物联网应用开发中，设备数据的实时获取与展示是核心需求之一。本文将手把手带你完成一个完整的Android应用开发实战，通过OkHttp3库连接…

张开发

前端开发 2026/6/20 6:53:28

避坑！这些毕设太好抄了，3000+毕设案例推荐第1064期

641、基于Java的会员卡刷卡消费智慧管理系统的设计与实现(论文＋代码＋PPT)会员卡刷卡消费智慧管理系统主要功能包括：会员卡管理、会员管理、消费记录、充值记录、退卡记录、会员卡过户记录、会员卡禁用记录、员工管理。随着信息技术发展和消费…

张开发

前端开发 2026/6/20 6:54:29

OpenClaw 添加在线大模型，百炼免费大模型，qwen/qwen3.5-flash

环境：Win11，WSL2，Ubuntu24.04大模型：Qwen Cloud，百炼API Key一、查看模型列表uadminPC26:~$ openclaw models list🦞 OpenClaw 2026.4.11 (769908e) — Im like tmux: confusing at first, then suddenly y…

张开发

2025_NIPS_CoCoA: A Minimum Bayes Risk Framework Bridging Confidence and Consistency for Uncertain...

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

APK Installer终极指南：如何在Windows上快速高效安装Android应用

宝塔面板PHP 7.4环境下SG11扩展安装与版本兼容性全解析

数位DP、状压DP、树形DP、记忆化搜索

终极指南：使用novideo_srgb免费校准NVIDIA显卡显示器色彩

【AI前沿】83K Star，6种后端，从零长出技能——Hermes Agent凭什么抢走OpenClaw的用户？

双降论文重复率与AI率工具实测，2026高效方案汇总

为什么你的多模态模型在西班牙语图文检索准确率暴跌41.7%？——从分词器错位到视觉提示污染的链式归因分析

干货必看！Biolaminin 521 CTG细胞治疗级别培养基质｜干细胞培养应用技术解析【曼博生物】

【OSG学习笔记】Day 52: FadeText

Android App连接OneNET物联网平台实战：用OkHttp3获取MQTTS设备数据（附完整代码）

避坑！这些毕设太好抄了，3000+毕设案例推荐第1064期

OpenClaw 添加在线大模型，百炼免费大模型，qwen/qwen3.5-flash