科研人福音！PaperOrchestra 把实验日志变投稿论文，文献综述图表全包

张开发

• 2026/4/10 4:05:56 • 15 分钟阅读

分享文章

科研人福音！PaperOrchestra 把实验日志变投稿论文，文献综述图表全包

AI能替你写论文了谷歌这个多智能体框架从实验记录直接生成投稿级论文研究背景做AI研究的人都懂那种痛苦实验跑完了数据也有了但把这些东西整理成一篇像样的论文往往比做实验本身还费劲。文献综述要翻几百篇paper、图表要一个个画、LaTeX格式要反复调……这个最后一公里问题其实一直没有被很好地解决。现有的自动化写作工具要么太窄——只能做文献综述比如AutoSurvey2、LiRA要么太死板——必须绑定在特定的实验流水线里才能用比如AI Scientist。换句话说你没办法拿着自己的实验记录去用这些工具它们根本不接受散装输入。谷歌这篇论文提出的PaperOrchestra想做的事情很直接给它一份想法摘要和实验日志它帮你输出一篇能投会议的完整LaTeX论文——包括文献综述、图表、公式全套齐活。为了衡量这件事做得好不好他们还顺带搭了个PaperWritingBench从CVPR 2025和ICLR 2025共200篇论文中反向工程出原始材料建了业内第一个标准化的论文写作评测集。相关工作这个领域可以粗略分成两派。一派是端到端的AI科研框架代表是AI Scientist系列。它们的思路是把提出假设→跑实验→写论文整个科研循环全部自动化。但问题在于写作模块跟它们自己的实验流水线是死死绑在一起的没法单独拿出来用更没法接受人类研究者自己提供的材料。另一派是专注于文献综述的系统比如AutoSurvey2和LiRA它们在生成长篇综述方面做得不错但目标是写调研报告而不是写研究论文。它们不懂怎么从自己的工作出发去定位研究空白、对比baseline缺乏写一篇完整论文所需要的自我意识。PaperOrchestra的定位就是填这个缝既能接受非结构化的散装输入又能输出完整的投稿级论文还能生成概念示意图——这是之前所有系统都做不到的组合。核心方法整个框架分五步走其中第二步和第三步并行执行Step 1 生成大纲Outline Agent读入所有输入材料产出一个JSON格式的结构化大纲。这个大纲包含三部分可视化计划要画什么图、文献检索策略宏观背景和具体方法论的检索方向、以及章节写作计划每个章节写什么、要引哪些文献。这一步相当于给后续所有agent铺路。Step 2 生成图表Plotting Agent根据可视化计划同时生成数据统计图和概念示意图。它用了一个叫PaperBanana的闭环优化模块会用视觉语言模型反复检查生成的图有没有问题不行就改、改完再生成直到满意为止。Step 3 文献综述Literature Review Agent执行Step 1定好的检索策略做的是先用LLM搜再用Semantic Scholar API验证的双重核查流程。找到的文献会做去重、截止日期过滤最后自动生成.bib文件并完成Introduction和Related Work两个章节的初稿。Step 4 正文写作Section Writing Agent拿着前面所有产出补全剩余章节——Abstract、Methodology、Experiments、Conclusion同时把生成的图表无缝嵌进LaTeX源文件里。Step 5 迭代精炼Content Refinement Agent用AgentReview系统模拟同行评审拿到反馈后对LaTeX源文件做针对性修改。有个关键细节只有总分提升或持平但细分项净正增益才接受修改一旦分数下降就立刻回滚——相当于给写作加了个版本控制。整个流程的输入输出可以用一个公式表达P(Ptex,Ppdf)W(I,E,T,G,F)P (P_{\text{tex}}, P_{\text{pdf}}) W(\mathcal{I}, \mathcal{E}, \mathcal{T}, \mathcal{G}, \mathcal{F})P(Ptex,Ppdf)W(I,E,T,G,F)I\mathcal{I}I是想法摘要E\mathcal{E}E是实验日志T\mathcal{T}T是LaTeX模板G\mathcal{G}G是会议要求F\mathcal{F}F是可选的现有图表不提供就全部自动生成。实验效果评测维度比较全面有自动评分、也有真人评估。在人工并排评比SxS中11位AI研究员对40篇论文进行了人工评估。结果是PaperOrchestra在文献综述质量上比AI基线高出50%–68%的绝对胜率差在整体论文质量上高出14%–38%。和人类写的原版论文相比文献综述方面还能打出43%的平局/胜率——相当能打。模拟接收率方面在ScholarPeer评审系统下PaperOrchestra的CVPR论文模拟接收率达到84%ICLR达到81%而人类原版论文是86%和94%——差距很小。引用覆盖率上竞品baseline平均只引9–14篇文献F1分数看起来还不错但那是因为分母小——实际上P1好引但非必引的召回率几乎是0。PaperOrchestra平均引用45–48篇更接近人类写作的~59篇水平P1召回率比最强基线高出12–14个百分点。消融实验挖出了两个有意思的结论一是即便只给非常粗糙的稀疏想法作为输入文献综述质量几乎没有下降说明Literature Review Agent的自主检索能力很强二是Content Refinement Agent的迭代精炼让论文接收率提升了19%CVPR和22%ICLR总分分别提升0.88和1.61分这一步的收益非常可观。论文总结写论文这件事最难的不是有想法而是把想法变成一篇有逻辑、有文献支撑、有图表佐证的完整稿件。PaperOrchestra用多智能体分工的方式把这个过程拆解成可以并行、可以迭代优化的若干步骤证明了从实验日志到投稿级论文的全程自动化在今天的技术条件下已经是可行的——而且质量能跟人类写的论文打个有来有回。

更多文章

前端开发 2026/4/10 3:58:08

基于File-Based App开发MVP项目峙

Issue 概述先来看看提交这个 Issue 的作者是为什么想到这个点子的，以及他初步的核心设计概念。?? 本 PR 实现了 Apache Gravitino 与 SeaTunnel 的集成，将其作为非关系型连接器的外部元数据服务。通过 Gravitino 的 REST API 自动获取表结构和元数据&…

深入解析HashMap：30道经典面试题带你彻底搞懂 HashMap是Java面试中的“常客”，无论是初级还是高级开发工程师，HashMap相关的问题几乎都会出现在面试中。本文将汇总最经典的HashMap面试题，从基础原理到源码分析，帮助你…

张开发

前端开发 2026/4/10 3:14:48

《AI Agent生产力部署指南：OpenClaw + vLLM 本地化实战——（三）OpenClaw与LLM工具链适配》

上一章节中我们完整介绍了如何在服务器中配置vLLM服务，如何运行vLLM，以及如何搭建本地机器作为中间跳转连接虚拟机与服务器的通信。本章第五节完成最后一个步骤对openclaw的相关配置，让本地能成功对话虚拟机，虚拟机成功调用服务器模型。下面直接开始吧！（五）配置ope…

张开发

科研人福音！PaperOrchestra 把实验日志变投稿论文，文献综述图表全包

最新文章

Gemma-3-12b-it量化部署：在低配设备运行OpenClaw的优化方案

NEURAL MASK 赋能 Web 前端：JavaScript 实现实时图像处理预览

GTE中文文本嵌入模型智能助手：客服工单语义聚类实战

LeetCode 210 课程表 II | 拓扑排序详解（C语言实现）

StructBERT中文情感分类效果可视化：UMAP降维+情感聚类散点图交互展示

C++易搞混知识：指针、引用与取地址运算符对比分析

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

基于File-Based App开发MVP项目峙

OpenClaw模型微调指南：优化Qwen2.5-VL-7B特定场景图文识别准确率

Beyond All Reason多人对战攻略：团队协作与战术配合的黄金法则

LexikJWTAuthenticationBundle：Symfony API JWT认证的终极解决方案 [特殊字符]

sysinfo 最佳实践：避免常见陷阱的 8 个专业技巧

React Native Safe Area Context 社区贡献：如何参与开发与提交代码

开源工具AppleRa1n：iOS设备激活解决方案的技术实践与合规指南

OpenClaw模型对比：Qwen3.5-9B-4bit与Qwen-72B图片理解实测

3分钟快速掌握智能内容解锁工具：突破信息壁垒的终极方案

【JavaSE-网络部分04】网络原理-传输层：UDP + TCP 可靠性三大核心机制（确认应答 / 超时重传 / 连接管理）

深入解析HashMap：30道经典面试题带你彻底搞懂

《AI Agent生产力部署指南：OpenClaw + vLLM 本地化实战——（三）OpenClaw与LLM工具链适配》

科研人福音！PaperOrchestra 把实验日志变投稿论文，文献综述图表全包

最新文章

Gemma-3-12b-it量化部署：在低配设备运行OpenClaw的优化方案

NEURAL MASK 赋能 Web 前端：JavaScript 实现实时图像处理预览

GTE中文文本嵌入模型智能助手：客服工单语义聚类实战

LeetCode 210 课程表 II | 拓扑排序详解（C语言实现）

StructBERT中文情感分类效果可视化：UMAP降维+情感聚类散点图交互展示

C++易搞混知识： 指针、引用与取地址运算符对比分析

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

C++易搞混知识：指针、引用与取地址运算符对比分析