科研人福音!PaperOrchestra 把实验日志变投稿论文,文献综述图表全包

张开发
2026/4/10 4:05:56 15 分钟阅读

分享文章

科研人福音!PaperOrchestra 把实验日志变投稿论文,文献综述图表全包
AI能替你写论文了谷歌这个多智能体框架从实验记录直接生成投稿级论文研究背景做AI研究的人都懂那种痛苦实验跑完了数据也有了但把这些东西整理成一篇像样的论文往往比做实验本身还费劲。文献综述要翻几百篇paper、图表要一个个画、LaTeX格式要反复调……这个最后一公里问题其实一直没有被很好地解决。现有的自动化写作工具要么太窄——只能做文献综述比如AutoSurvey2、LiRA要么太死板——必须绑定在特定的实验流水线里才能用比如AI Scientist。换句话说你没办法拿着自己的实验记录去用这些工具它们根本不接受散装输入。谷歌这篇论文提出的PaperOrchestra想做的事情很直接给它一份想法摘要和实验日志它帮你输出一篇能投会议的完整LaTeX论文——包括文献综述、图表、公式全套齐活。为了衡量这件事做得好不好他们还顺带搭了个PaperWritingBench从CVPR 2025和ICLR 2025共200篇论文中反向工程出原始材料建了业内第一个标准化的论文写作评测集。相关工作这个领域可以粗略分成两派。一派是端到端的AI科研框架代表是AI Scientist系列。它们的思路是把提出假设→跑实验→写论文整个科研循环全部自动化。但问题在于写作模块跟它们自己的实验流水线是死死绑在一起的没法单独拿出来用更没法接受人类研究者自己提供的材料。另一派是专注于文献综述的系统比如AutoSurvey2和LiRA它们在生成长篇综述方面做得不错但目标是写调研报告而不是写研究论文。它们不懂怎么从自己的工作出发去定位研究空白、对比baseline缺乏写一篇完整论文所需要的自我意识。PaperOrchestra的定位就是填这个缝既能接受非结构化的散装输入又能输出完整的投稿级论文还能生成概念示意图——这是之前所有系统都做不到的组合。核心方法整个框架分五步走其中第二步和第三步并行执行Step 1 生成大纲Outline Agent读入所有输入材料产出一个JSON格式的结构化大纲。这个大纲包含三部分可视化计划要画什么图、文献检索策略宏观背景和具体方法论的检索方向、以及章节写作计划每个章节写什么、要引哪些文献。这一步相当于给后续所有agent铺路。Step 2 生成图表Plotting Agent根据可视化计划同时生成数据统计图和概念示意图。它用了一个叫PaperBanana的闭环优化模块会用视觉语言模型反复检查生成的图有没有问题不行就改、改完再生成直到满意为止。Step 3 文献综述Literature Review Agent执行Step 1定好的检索策略做的是先用LLM搜再用Semantic Scholar API验证的双重核查流程。找到的文献会做去重、截止日期过滤最后自动生成.bib文件并完成Introduction和Related Work两个章节的初稿。Step 4 正文写作Section Writing Agent拿着前面所有产出补全剩余章节——Abstract、Methodology、Experiments、Conclusion同时把生成的图表无缝嵌进LaTeX源文件里。Step 5 迭代精炼Content Refinement Agent用AgentReview系统模拟同行评审拿到反馈后对LaTeX源文件做针对性修改。有个关键细节只有总分提升或持平但细分项净正增益才接受修改一旦分数下降就立刻回滚——相当于给写作加了个版本控制。整个流程的输入输出可以用一个公式表达P(Ptex,Ppdf)W(I,E,T,G,F)P (P_{\text{tex}}, P_{\text{pdf}}) W(\mathcal{I}, \mathcal{E}, \mathcal{T}, \mathcal{G}, \mathcal{F})P(Ptex​,Ppdf​)W(I,E,T,G,F)I\mathcal{I}I是想法摘要E\mathcal{E}E是实验日志T\mathcal{T}T是LaTeX模板G\mathcal{G}G是会议要求F\mathcal{F}F是可选的现有图表不提供就全部自动生成。实验效果评测维度比较全面有自动评分、也有真人评估。在人工并排评比SxS中11位AI研究员对40篇论文进行了人工评估。结果是PaperOrchestra在文献综述质量上比AI基线高出50%–68%的绝对胜率差在整体论文质量上高出14%–38%。和人类写的原版论文相比文献综述方面还能打出43%的平局/胜率——相当能打。模拟接收率方面在ScholarPeer评审系统下PaperOrchestra的CVPR论文模拟接收率达到84%ICLR达到81%而人类原版论文是86%和94%——差距很小。引用覆盖率上竞品baseline平均只引9–14篇文献F1分数看起来还不错但那是因为分母小——实际上P1好引但非必引的召回率几乎是0。PaperOrchestra平均引用45–48篇更接近人类写作的~59篇水平P1召回率比最强基线高出12–14个百分点。消融实验挖出了两个有意思的结论一是即便只给非常粗糙的稀疏想法作为输入文献综述质量几乎没有下降说明Literature Review Agent的自主检索能力很强二是Content Refinement Agent的迭代精炼让论文接收率提升了19%CVPR和22%ICLR总分分别提升0.88和1.61分这一步的收益非常可观。论文总结写论文这件事最难的不是有想法而是把想法变成一篇有逻辑、有文献支撑、有图表佐证的完整稿件。PaperOrchestra用多智能体分工的方式把这个过程拆解成可以并行、可以迭代优化的若干步骤证明了从实验日志到投稿级论文的全程自动化在今天的技术条件下已经是可行的——而且质量能跟人类写的论文打个有来有回。

更多文章