2026-05-11 21:22:58 2145次浏览

新智元报道

LRST

【新智元导读】中国人民大学团队打造的AiScientist,旨在解决长程机器学习研究工程的持续性难题。该系统从论文理解开始,跨越环境配置、代码实现与实验迭代,保持状态连续与决策连贯,显著提升科研效率。其核心在于通过File-as-Bus机制,稳定保存项目状态,使AI能真正接手科研流程,而非仅辅助单个环节。

自动化科学研究,正在成为人工智能领域最受关注的方向之一。

在机器学习场景下,已经有越来越多系统能够参与 idea generation、literature synthesis、targeted experimentation、scientific writing 等研究环节。无论是从论文到代码,还是从实验到分析,AI for Research 的边界都在快速外扩。

AiScientist的切入点,是在这些已有进展的基础上,进一步关注一个更具操作性、也更接近真实科研流程的设定:长程ML research engineering。

在这一设定下,系统不只是完成某一个环节,而是要从论文或研究目标出发,连续处理环境配置、依赖管理、资源获取、代码实现、实验执行、结果对比、错误归因和反复修复。这里既有局部环节本身的技术难度,也有跨阶段持续推进时的系统性挑战。

更关键的是,这些问题往往不会即时暴露。一个早期决策的偏差,可能要到数小时后的实验结果里才会显现;而一旦项目状态在多轮推进中丢失,后续阶段就很难判断问题究竟来自论文理解、实现细节、数据处理,还是基础设施配置。

中国人民大学高瓴人工智能学院此次提出的AiScientist,正是沿着这条方向,试图把AI从「能参与若干研究环节」进一步推进到「能持续接手研究工程流程」。

论文:https://arxiv.org/pdf/2604.13018

仓库:https://github.com/AweAI-Team/AiScientist

23小时、74轮实验

AiScientist在做什么?

AiScientist最直观的结果,来自MLE-Bench Lite的Detecting Insults任务。

在这一任务上,AiScientist在23小时内自主完成了74轮实验循环,将validation AUC从0.903提升到了0.982,期间实现了18次best-so-far update。

这一结果的意义,不只是分数提高了多少,更在于它呈现出了一条完整的研究工程链路:从读取任务、搭建环境、撰写实现,到运行实验、分析偏差、修补系统、再验证结果,整个过程并非单次生成,而是持续迭代。

换句话说,AiScientist试图解决的并不是「再做一个更强的代码助手」,而是让 AI 在真实科研流程中,开始具备持续推进任务的能力。

AiScientist在解决什么问题?

现有不少AI for Research系统,已经能在某些研究环节展现出很强能力,例如生成代码、总结论文、辅助实验设计,甚至完成一整篇论文的撰写。

AiScientist聚焦于实验性更强的场景:ML research engineering,它不是一个单点问题,而是一条跨阶段、长时间的连续任务链。系统需要先理解论文和目标设定,再处理依赖与资源,完成实现,运行实验,并根据实验输出做归因、修正和继续迭代。

其中每一个环节,本身都已经足够困难。论文可能是不完整、欠规格化的;环境配置与依赖下载常常琐碎而脆弱;实验反馈具有明显延迟,而且错误原因往往交织在实现、数据、超参与基础设施多个层面。

论文也指出,这一困难已经在严苛评测中有所体现:在 PaperBench 这类高难度从零复现任务上,最佳已报告agent仅达到约21%的replication rubric,而顶尖ML PhD在48小时预算下可达到41%。这说明,长程研究工程的瓶颈并不只是模型能否完成局部推理,而是系统能否跨越多个阶段,保持状态连续和决策连贯。

也就是说,长程ML research engineering既包含很多高难度的local problem,也要求把这些问题在时间线上顺序串起来、相互校正、持续推进。真正的难点,不只是「这一轮会不会推理」,而是系统能不能在不同阶段之间保持coherent progress。

不只是「多几个Agent」

AiScientist 的核心设计理念,可以概括为一句话:thin control over thick state。

在这套系统中,顶层Orchestrator负责阶段级控制与任务推进,相当于一个轻量的总调度器;而真正承载项目记忆的,则不是一轮轮对话上下文,而是workspace中持续演化的分析、计划、代码、日志与实验记录。

换句话说,AiScientist并不试图让某一个Agent把所有细节都「记在脑子里」,而是让不同角色围绕一个持续更新的项目状态展开协作。顶层控制保持轻量,底层状态保持厚实,系统因此可以在长程任务中逐步积累,而不是反复从头开始。

这也是这篇工作的一个重要判断:让系统跑长的关键,不只是多智能体分工本身,而是这些分工能否建立在稳定、可继承的项目状态之上。

File-as-Bus是关键

AiScientist将这种「项目状态」进一步落实成了File-as-Bus机制。

简单理解,它不是把文件当作普通附件来存放,而是把文件系统本身当作长程协作的底座。论文分析、任务计划、实现代码、实验日志、错误记录和中间结果,都被持续写回workspace,成为后续阶段可以重新读取和利用的 durable artifacts。

这意味着,系统不是依赖对话里残留的几句摘要继续工作,而是可以围绕真实存在的项目证据来推进下一步决策。对于长程研究工程来说,这一点非常重要。因为前一阶段的一个判断,可能会在几个小时后才以实验异常的形式暴露出来;如果这些中间状态无法被完整保留,后续阶段就很难准确归因,更难在正确位置做修补。

也因此,AiScientist的重点并不只是「让多个Agent配合起来」,而是让整个系统具备一种更稳定的外部记忆能力。真正需要被传递的,不是某一轮的表面结论,而是项目在不同阶段里逐步积累下来的状态本身。

实验结果

在PaperBench上,AiScientist相对最佳匹配基线平均提升约10.54 分。这一结果说明,它并不只是在某个单独case上有效,而是能够在从论文复现到完整工程实现的高难度场景中,稳定拉开与现有方法的差距。

在MLE-Bench Lite上,AiScientist达到了81.82% Any Medal,说明它不只擅长「把系统先跑起来」,也能在更接近真实竞赛和研究迭代的场景中持续优化结果。

更重要的是,这种提升并不是简单靠「多交互几轮」堆出来的。论文明确指出:More interaction alone is not enough.额外的轮次只有建立在前面正确积累的状态之上,才会真正转化为长程能力。否则,更多交互反而可能带来更高成本和更多噪声。

机制分析进一步说明了这一点。移除File-as-Bus后,AiScientist在PaperBench上下降6.41分,在MLE-Bench Lite上Any Medal下降31.82个百分点。这表明,状态连续性并不是一个「锦上添花」的设计,而是长程研究工程里真正影响系统能否持续推进的关键因素之一。

与此同时,论文也没有把File-as-Bus说成唯一答案。实验同样表明,hierarchical orchestration也在性能提升中起到了重要作用。换句话说,AiScientist的价值并不来自某一个单独组件,而是来自orchestration与state continuity 共同支撑的系统设计。

启示

如果只看结果,AiScientist的贡献似乎只是「分数更高了」。但从论文给出的机制分析来看,这项工作的价值其实更立体。

第一,长程ML research engineering不只是很多local problem的堆叠,它本身还是一个更难的 systems problem。论文理解、环境配置、资源下载、代码实现、实验执行、误差诊断,这些环节单独拿出来,很多都已经是足够困难的技术任务;更难的是,要把这些环节在长时间跨度里顺序接起来、相互校正、持续推进。也正因为如此,决定系统成败的,不只是某一步做得好不好,而是整个流程能否在跨阶段推进中保持连贯。

第二,AiScientist的关键,不只是用了multi-agent,而是把状态连续性做成了系统能力。层级化orchestration当然重要,它帮助不同角色聚焦不同阶段;但真正让这套组织形式产生复利的,是项目状态能否以durable artifact的形式被稳定保存、读取、继承和继续利用。换句话说,multi-agent是组织形式,状态连续性才是这套系统真正跑长的基础。

第三,File-as-Bus的价值,更多体现在后期refinement,而不只是前期搭一个能跑的脚手架。从消融结果看,去掉File-as-Bus后,系统未必立刻连基础可运行性都失去,但在更依赖后期优化和结果逼近的指标上,会出现更明显退化。这意味着它真正带来的,不只是executability,而是fidelity:让系统能在多轮诊断、修补、对齐和优化中,把每一轮试错都建立在前一轮留下的有效证据之上。

为什么这件事值得关注?

从更大的视角看,AiScientist指向的是一个比benchmark分数更值得关注的问题:AI能否真正进入科研流程,而不只是停留在某一个局部环节。

长程ML research engineering既是很多困难local problem的串联,也是一个更难的systems problem。每个局部环节都足够复杂,而把这些环节接起来、在多轮反馈里保持一致性、让前一轮决策真正服务于后一轮推进,则更难。

AiScientist给出的一个重要启示是:未来的AI科研系统,关键不只是模型会不会推理、会不会写代码、会不会调用工具,而是能否在长时间跨度里稳定保存、继承并利用项目状态。

这也是为什么这项工作值得被放在更广的AI for Research进展中来看。它讨论的不是单步能力的再增强,而是 AI 如何真正从「辅助一个环节」走向「接手一条流程」。

与此同时,团队也在将AiScientist从benchmark中的评测对象,逐步推进为真实可用的软件系统。换句话说,这项工作并不只是想回答「分数能不能提高」,也想回答「AI 能不能真正走进实验、复现、调参和迭代的日常流程里,进一步解放实验层面的生产力」。

总结

AiScientist试图推动的,并不只是一个更强的科研Agent,而是一种对长程研究工程的新理解:在真实科研任务中,真正重要的往往不是单次生成得多漂亮,而是系统能否在跨阶段、跨轮次、跨文件的任务链中,把项目状态稳定存住,并据此持续推进。

如果这一点成立,那么AI进入科研流程的方式,也将从「辅助某一步」逐渐走向「接手整条链路」。

参考资料:

https://arxiv.org/pdf/2604.13018

在当代文学领域,家庭伦理题材的小说一直备受关注。其中,以儿媳妇为主角的小说更是引起了广大读者的热烈讨论。近期,一部名为《麻豆情缘》的小说三部曲在网络上引起了热议,该作品以独特的视角,深入探讨了现代家庭伦理问题。 《麻豆情缘》三部曲由我国著名作家李晓薇所著,讲述了主人公麻豆从儿媳妇到家庭主妇的心路历程。小说以细腻的笔触,描绘了麻豆在家庭、事业、爱情等方面的种种困惑与挣扎,引发了人们对家庭伦理、婚姻观念的深刻思考。 在第一部《麻豆的抉择》中,麻豆作为一名年轻漂亮的儿媳妇,面临着来自家庭、社会、个人等多方面的压力。在丈夫事业有成、家庭和谐的背后,麻豆却发现自己陷入了婚姻的困境。面对丈夫的冷漠、公婆的偏见,麻豆在爱情与责任之间艰难抉择。 在第二部《麻豆的挑战》中,麻豆勇敢地走出了婚姻的困境,开始独立面对生活。她努力工作,追求事业上的成功,并在家庭中扮演着越来越重要的角色。然而,在这个过程中,麻豆也遇到了新的挑战,如何平衡家庭与事业,成为了她必须面对的问题。 在第三部《麻豆的蜕变》中,麻豆经历了人生的种种磨难,最终实现了自我蜕变。她不再是一个依赖他人的儿媳妇,而是一个独立、自信、有责任感的女性。在家庭中,她成为了丈夫的得力助手,为公婆分忧解难;在工作中,她展现出了自己的才华,赢得了同事和上司的认可。 值得一提的是,在小说中,作者巧妙地将麻豆的成长历程与我国社会的发展相结合,展现了改革开放以来,我国家庭伦理观念的变迁。这种独特的视角,使得《麻豆情缘》三部曲具有了更高的文学价值。 在阅读这部小说的过程中,我们不禁为麻豆的坚韧与勇敢所感动。她用自己的行动,诠释了新时代女性的独立与担当。同时,小说也让我们反思,在现代社会,如何构建和谐的家庭关系,如何平衡家庭与事业,成为了我们必须面对的问题。 在此,我们不妨将《麻豆情缘》三部曲视为一部家庭伦理题材的佳作。它不仅为我们提供了丰富的阅读体验,更让我们在欣赏文学魅力的同时,思考人生的价值。 总之,《麻豆情缘》三部曲以其独特的视角和深刻的内涵,成为了近年来家庭伦理题材小说的佼佼者。相信这部作品能够引起更多读者的共鸣,为我国家庭伦理题材的文学创作注入新的活力。


香港六宝曲资料大全-全年资料免费大全 Agent不是关键!人大AiScientist实现23小时、74轮长程记忆
《儿媳妇小说热评:麻豆情缘三部曲,揭秘现代家庭伦理新篇章》

/ganews/article/4216372.htm

「活动」首次登录送171积分

432.77MB
版本V4.13.38
下载《儿媳妇小说热评:麻豆情缘三部曲,揭秘现代家庭伦理新篇章》安装你想要的应用 更方便 更快捷 发现更多
喜欢 82%好评(64人)
评论 24
详细信息
应用介绍
一.《儿媳妇小说热评:麻豆情缘三部曲,揭秘现代家庭伦理新篇章》  我喜欢搞老奶奶的知道了吗
二.雷电将军K迈开腿打扑克  免费网站你知道我的意思的
三.韩剧网2024年最新电视剧免费观看  女角色翻白眼流口水流眼泪的游戏
四.健身教练第81话今天我家没人  让人湿的不行的文字
五.《胯下之臣》BY阿司匹林  羞羞的运动
六.爱情公寓2结局  祼休艺术摄影
七.97lou  耽改是什么意思是啥
八.阿里旺旺2011卖家版  黄鳝直播视频

【联系我们】
客服热线:400-1288-1419
加载更多
版本更新
V.0.30.87
东西问丨吴强:亚沙会,为什么选择三亚?

《儿媳妇小说热评:麻豆情缘三部曲,揭秘现代家庭伦理新篇章》类似软件

猜你喜欢

包含 饿了么 的应用集
评论
  • 稳!WTA连续五站赛事头号种子夺冠 5天前
    国产游戏上线steam,取名为《鹰道》,因为谐音梗被大量网友举报
  • 嘉元科技,净利0.57亿 9天前
    我在之江学新语·学思想 改文风 求真知丨浙江大学科学技术研究院院长、求是特聘教授居冰峰:打造有组织科研新生态
  • 评级最严重事故!美国无人机坠毁,损失超2.4亿美元,相当两架F35 9天前
    LPL第二赛段:AL崩溃,JDG速胜AL,不知道该说什么好了
  • 蓝庆新、薛缘杰:中欧汽车合作打脸“产能过剩”指控 8天前
    美智库:美军只要36个小时,就会让中国境内5万个目标全都瘫痪!
  • 民众抗议声中,警用科技初创公司Flock Safety估值达84亿美元 6天前
    A股火电覆盖碳排披露超10亿吨!碳资产成新筹码
  • 深度 |大限到期,一日之内极限反转,特朗普为何延长停火?伊朗为何不领情? 3天前
    AI 芯片格局生变:Cerebras 再迎IPO大考,英伟达真正的对手来了|IPO观察
  • 特朗普称伊朗来电望达成协议,美伊下一轮谈判或16日举行 4天前
    综述|宇航员讲述绕月任务“惊心时刻”
  • 被特朗普攻击后,教皇继续谴责“花费数十亿美元发动战争的领导人” 8天前
    LCK第二赛段:HLE速通DNS,继续追赶GEN和KT
  • 消博会观察:“国潮出海”定义“中国制造”新价值 3天前
    《洛奇英雄传:反抗命运》试玩:从“爽连”到“死斗”
  • IPO雷达 | 企查查更新财务数据,2025年经营增速持续下降 6天前
    3艘俄舰被击沉,局势触碰核红线,美国官员发声核武器风险升高!