这项由卡内基梅隆大学盘算机科学学院研究团队完成的研究,,,,,以预印本形式宣布于2026年6月,,,,,论文编号为arXiv:2606.01533,,,,,有兴趣深入相识的读者可以通过这个编号在arXiv平台上盘问完整论文。。。。
假设你是一家公司的老板,,,,,手边只有一名员工。。。。天天你把一张使命清单交给他,,,,,他从第一项做到最后一项,,,,,中途不可请同事资助,,,,,也不可转头修改妄想。。。。若是这名员工在第三项使命上卡住了,,,,,整个流水线就彻底停摆。。。。这正是目今绝大大都电脑操作智能体(Computer Use Agent,,,,,简称CUA)的事情方法——它们像一个孤苦的员工,,,,,吸收一个使命,,,,,然后重新到尾一步一步地执行,,,,,既不分工,,,,,也不并行,,,,,遇到问题只能原地挣扎。。。。
什么是CUA??????简朴来说,,,,,就是能替身操作电脑图形界面的AI助手——帮你在网页上填表、翻开应用程序、点击按钮,,,,,甚至完成一整套重大的办公室事情流程。。。。这类工具近几年随着大型语言模子的崛起迅速成熟,,,,,GPT-5.4、Claude Opus 4.6等前沿模子在标准测评中的效果已经凌驾了通俗人类的水平。。。。
然而,,,,,卡内基梅隆大学的研究团队发明了一个根天性的问题:这些能力轶群的智能体在设计上仍然是"单人运发动",,,,,面临重大的、需要长时间一连事情的使命时,,,,,它们很快就会陷入逆境。。。。研究团队于是提出了一个新的思绪——**多智能体电脑使用系统**(Multi-Agent Computer Use,,,,,简称MACU),,,,,让一个"司理"AI统筹协调多个"员工"AI同步作战,,,,,解决单打独斗难以完成的重大使命。。。。
第一个弱点是**缺乏分工**。。。。把"视察五家餐厅的评分并整理成表格"这类使命交给简单智能体,,,,,它必需一家一家地查,,,,,查完第一家再查第二家,,,,,就像一小我私家拿着购物清单在超市里走遍每个货架。。。。若是五家餐厅的信息可以同时搜集,,,,,理论上效率可以提升五倍,,,,,但简单智能体无法同时开五个浏览器、派五个"两全"去做这件事。。。。
第二个弱点是**无法有用转头修正**。。。。真实天下的电脑操作情形高度"部分可视察"——这个说法听起来很学术,,,,,着实意思很直白:智能体在某一时刻能看到的信息是有限的,,,,,当它完成了某个子使命并关闭了响应的页面,,,,,那些信息就永世消逝了。。。。后续使命可能恰恰需要那些已消逝的信息,,,,,但智能体无法回到已往重新获取。。。。这就像你出门买菜时没有记下超市的促销价钱,,,,,回抵家才发明需要货比三家,,,,,但已经没有步伐比照了。。。。
第三个弱点是**长使命中的累积失误**。。。。办法越多,,,,,蜕化概率越高。。。。简单智能体在长达数十步甚至数百步的使命中,,,,,任何一步判断失误都可能导致整体失败,,,,,并且它往往没有机制来发明并纠正自己走偏了的偏向。。。。
MACU的焦点立异在于引入了一种叫做**有向无环图**(Directed Acyclic Graph,,,,,DAG)的使命组织结构。。。。听起来重大,,,,,但实质上就是一张"工程进度图",,,,,和修建工地上的施工妄想图如出一辙。。。。
在这张图里,,,,,每个节点代表一项子使命,,,,,节点之间的箭头代表依赖关系——只有当某个前置使命完成后,,,,,下游使命才华最先。。。。打个例如,,,,,修屋子时必需先打好地基,,,,,才华砌墙,,,,,砌完墙才华装窗户,,,,,但刷内墙和装地板可以同步举行。。。。MACU的"司理"AI(Manager)认真把一个大使命拆解成这样一张图,,,,,然后让多个"员工"AI(Subagent)并行处置惩罚图上那些没有前置依赖的节点,,,,,也就是"目今可以连忙开工的使命"。。。。
更主要的是,,,,,这张图不是一最先就牢靠死的。。。。每当一个子使命完成,,,,,司理AI会收到来自员工AI的汇报,,,,,包括文字说明和截图,,,,,然后凭证新获得的信息决议是否修改后续妄想。。。。它可以添加新的子使命、作废原本多余的使命、修改某个待执行使命的详细指令,,,,,甚至强制终止一个正在执行但已经陷入死循环的使命。。。。这种一连调解妄想的能力,,,,,被研究团队称为"**一连重妄想**"(Continuous Replanning),,,,,是MACU逾越古板简单智能体的要害机制之一。。。。
在手艺实现上,,,,,每个员工AI运行在自力的虚拟机(VM)上,,,,,相相互互隔离,,,,,就像公司里每个员工都有自己自力的办公桌和电脑。。。。子使命完成后,,,,,司理AI会审查该员工虚拟机上的文件系统变换,,,,,决议哪些新天生的文件值得生涯下来,,,,,以备后续使命使用。。。。当一个下游子使命需要继续上游使命留下的电脑状态时(好比继续在上一步翻开的网页上操作),,,,,系统会直接将上游虚拟机的快照"克隆"过来,,,,,让员工AI从断点处继续事情,,,,,而不是重新最先。。。。
研究团队在四个差别的基准测试集上对MACU举行了系统评估,,,,,这四个测试集各有着重,,,,,像是给系统设置了从简朴到重大的四个科场。。。。
第一个科场是**OSWorld**,,,,,包括369个在Ubuntu系统上执行的桌面使命,,,,,涵盖种种原生应用和跨应用事情流。。。。评分方法是程序自动检查使命是否真正完成,,,,,好比检查文件是否被准确修改、设置是否生效。。。。
第四个考。。。。,,,,也是难度最高的,,,,,是**Odysseys**,,,,,包括200个从真适用户浏览行为中提炼出来的长程网页导航使命。。。。每个使命都有一套细化的评分标准,,,,,不但纪录使命是否完成,,,,,还纪录完成了多大比例的要害要求。。。。这个科场的使命往往需要同时盘问多个网站、处置惩罚大宗信息、做出重大判断,,,,,是最靠近真实事情场景的测试。。。。
在主要实验中,,,,,研究团队使用**Qwen3.6-27B**模子作为所有员工AI的基。。。。,,,,**Claude Opus 4.6**作为司理AI,,,,,同时还测试了用Qwen3.6-27B同时肩负司理和员工角色的情形。。。。系统被设置为最多同时运行4个并行员工AI,,,,,司理可以对使命图举行最多10次修改(即"重妄想预算"为10)。。。。
在OSWorld上,,,,,简单智能体的乐成率为43.8%,,,,,MACU将其提升到48.5%,,,,,提升了4.7个百分点。。。。与此同时,,,,,完成每个使命所需的时间从平均26.6分钟降低到21.4分钟。。。。这个提升幅度相对温顺,,,,,缘故原由在于OSWorld的使命大多是针对单个应用的操作,,,,,自然适合"一小我私家干",,,,,并行化的空间有限。。。。
Online-Mind2Web上的提升同样稳健但不惊艳,,,,,乐成率从52.2%升至55.6%,,,,,增添了3.4个百分点。。。。不过这里泛起了一个有趣的反效果:完成时间反而从18.5分钟增添到33.6分钟。。。。缘故原由在于这些网页使命大多是自然串行的——必需先完成前一步才华举行下一步——并行化帮不上什么忙,,,,,反而司理AI每次剖析汇报、更新妄想图都需要特另外时间,,,,,导致整体变慢了。。。。这恰恰说明多智能体框架并不是"万能良药",,,,,关于实质上是线性的使命,,,,,它的优势会被治理开销所抵消。。。。
真正令人眼前一亮的效果泛起在后两个科场。。。。WebTailBench-v2上,,,,,乐成率从20.8%跃升至29.5%,,,,,增幅8.7个百分点;;;;使命中知足的评分指标比例也从35.9%提升到46.3%。。。。Odysseys上的转变卦为戏剧性:乐成率从8.5%飙升至34.0%,,,,,足足提高了25.5个百分点;;;;知足指标比例从42.1%提升到62.3%;;;;同时使命完成的中位时间从162分钟缩短到110分钟,,,,,速率提升了约1.47倍。。。。这两个科场的使命恰恰是那种需要同时盘问多个泉源、并行网络信息的场景,,,,,MACU的并行能力在这里施展得淋漓尽致。。。。
关于重妄想预算(即司理AI可以修改使命图的次数上限),,,,,研究团队在一个包括36个使命的OSWorld子集上举行了系统测试。。。。当预算为0时(即完全不允许修改,,,,,使命图一旦天生就牢靠稳固),,,,,乐成率只有25.0%。。。。把预算调到1(允许天生初始使命图,,,,,但之后不可再改),,,,,乐成率仅微微提升到27.8%,,,,,改善幅度险些可以忽略不计。。。。一旦预算提升到5,,,,,允许在使命执行历程中随时调解妄想,,,,,乐成率跳升到47.2%;;;;预算设为10时,,,,,乐成率抵达58.3%。。。。这组数据清晰地说明,,,,,"动态调解妄想"的能力才是MACU的焦点价值所在,,,,,而不但仅是"把使命拆成多个子使命"。。。。把使命图牢靠死的MACU和真正能一连修正的MACU之间,,,,,差别天壤之别。。。。
关于并行智能体数目,,,,,研究团队在Odysseys的"简朴"使命子集(45个使命)上举行了测试。。。。当最大并行数为1时(实质上是简单智能体加上了妄想框架),,,,,中位完成时间为25.4分钟,,,,,乐成率53.3%,,,,,平均知足指标比例76.4%。。。。把并行数提升到2,,,,,时间降到13.1分钟,,,,,速率提升约1.9倍;;;;提升到4,,,,,时间进一步降到7.9分钟,,,,,速率提升约3.2倍,,,,,与此同时乐成率也提升到60.4%,,,,,知足指标比例提升到85.8%。。。??????杉嗟牟⑿心芰Σ坏芗铀偎俾剩,,,,还能真正资助完成更多使命,,,,,由于并行搜索自己就是一种笼罩更广的战略。。。。
研究团队还牢靠员工AI(始终使用Qwen3.5-4B这个较小的模子),,,,,替换差别的司理AI来丈量司理能力的影响。。。。结论很是明确:司理越智慧,,,,,整个系统体现越好,,,,,并且差别相当悬殊。。。。
用没有任何司理的简单智能体作为基准,,,,,乐成率是25.0%。。。。加入司理后,,,,,使用Gemini 3.1 Flash Lite(一个轻量级模子)作为司理,,,,,乐成率提升到36.1%;;;;使用Kimi K2.6或Qwen3.6-27B作为司理,,,,,抵达41.7%;;;;Gemini 3.1 Pro Preview同样是41.7%;;;;GPT-5.4抵达44.4%;;;;Claude Sonnet 4.6抵达52.8%;;;;而Claude Opus 4.6作为司理时,,,,,乐成率高达58.3%,,,,,比没有司理的基准翻了一倍多。。。。
这个实验有个主要的寄义:MACU带来的收益不但是由于使用了更强的大模子作为司理而爆发的"知识蒸馏"效果,,,,,而是由于整个多智能体框架的结构性优势——使命剖析、并行执行、一连重妄想——这些机制自己就创立了价值。。。。研究团队通过另一组实验验证了这一点:纵然司理和员工都用统一个Qwen3.6-27B模子,,,,,MACU相比简单智能体仍然有显著提升,,,,,说明框架设计自己的孝顺无法被简朴地归结为"用了更好的模子"。。。。
通太过析现实运行中天生的使命图,,,,,研究团队归纳出了几种重复泛起的典范结构,,,,,就像差别类型工程项目的标准施工计划。。。。
最简朴的是"**简朴链式**"结构:司理天生一个员工使命,,,,,员工完成后汇报,,,,,司理收到报告天生最终摘要。。。。适合只需要一个智能体顺序执行的使命,,,,,好比"把GIMP的主题从暗色切换为亮色"。。。。
更常见的是"**映射-归约**"(Map-Reduce)结构,,,,,这个名字来自数据处置惩罚领域,,,,,但用来明确这里再贴切不过。。。。就像一家超市需要盘货所有货架上的库存,,,,,可以先让每个员工认真一个区域并行盘货(映射阶段),,,,,然后汇总所有人的清单(归约阶段)。。。。好比"网络五家香港餐厅的Google地图信息并整理成表格",,,,,司剖析同时派出五个员工划分盘问五家餐厅,,,,,等五份信息都回来后再合并整理。。。。
"**运行时重试扩展**"结构是MACU动态重妄想能力的典范体现。。。。当初始使命失败或信息缺乏时,,,,,司剖析暂时添加新的替换计划节点,,,,,就像施工妄想里某个供应商断货后紧迫找备用供应商。。。。好比盘问某个特定命字化趋势报告时,,,,,初始搜索失败,,,,,司理随即添加几种差别的搜索变体并行实验。。。。
尚有一种"**重试链**"结构,,,,,适合那些需要重复实验直到乐成的使命,,,,,好比某个网页总是加载超时,,,,,司理就一直派出新的员工用差别战略重试,,,,,同时保存所有实验的纪录以供最终汇总参考。。。。
研究团队还统计了四个科场上使命图的规模转变情形。。。。在使命最先时,,,,,OSWorld使命图平均有2.3个节点,,,,,到使命竣事时增添到2.9个节点;;;;Online-Mind2Web从2.1个节点增添到4.3个节点,,,,,险些翻倍;;;;WebTailBench从2.3增添到4.2;;;;Odysseys从6.0增添到7.6,,,,,且初始图就已经是最大的。。。。需要至少举行一次动态修改的使命比例在各科场也差别:OSWorld为45.7%,,,,,Online-Mind2Web为68.0%,,,,,WebTailBench为73.5%,,,,,Odysseys为74.5%。。。??????梢钥吹剑,,,,使命越重大,,,,,运行时动态调解妄想的须要性越高。。。。
前面提到过,,,,,电脑操作是一个"部分可视察"的情形——许多信息一旦错过就再也找不回来了。。。。这是MACU在系统设计上特殊着力解决的问题。。。。
研究团队的解法是:司理AI在每次收到员工汇报时,,,,,会将要害信息(文字回复和最近几张截图)纳入自己的"影象",,,,,并将相关信息写入后续使命的指令中。。。。这样,,,,,纵然原始网页已经关闭,,,,,后续使命的指令里已经包括了所需的详细数字、URL或其他要害细节,,,,,员工AI不需要重新去找就能直接使用。。。。
除此之外,,,,,在文件层面,,,,,系统会在每个员工使命完成后检查其虚拟机上的文件变换,,,,,由司理决议哪些文件值得生涯到共享的文件归档池中。。。。下游使命可以通过指定归档名称,,,,,在启动时自动将这些文件加载到自己的虚拟机里。。。。这就像团队协作时的共享云盘,,,,,前一小我私家整理好的文档,,,,,后续认真汇总的人可以直接挪用,,,,,不需要重新整理。。。。
研究团队还特殊测试了一种叫做"pass@k"的比照战略:让简单智能体自力运行8次,,,,,遇到乐成绩停下来,,,,,最后看8次时机里能乐成几多次。。。。这个战略在真实应用中并不现实(由于需要知道哪次乐成了才华停,,,,,但通常没有人能在旁边实时判断),,,,,但关于剖析MACU的能力来说是个有意思的参考。。。。
效果显示,,,,,在总执行步数相同的情形下(不凌驾200步),,,,,MACU的体现优于pass@8。。。。;;;痪浠八担,,,,同样的算力投入下,,,,,MACU通过有战略地分派使命和动态调解妄想,,,,,比盲目重试八次效果更好。。。。当步数进一步增添到200步以上,,,,,两者都趋于平稳,,,,,不再有太多改善空间,,,,,但MACU在较早的阶段就抵达了更高的乐成率。。。。
另一个有趣的趋势是"随算力增添的扩展性":研究团队绘制了乐成率随总执行步数增添的曲线。。。。简单智能体的曲线很快就平展了,,,,,增添更多步数带来的收益越来越。。。。;;;而MACU的曲线则一连上升更长时间,,,,,说明它能更有用地使用特另外盘算资源来解决更多使命。。。。这意味着随着未来算力的增添,,,,,MACU有可能一连受益,,,,,而简单智能体则更快遇到天花板。。。。
从按难度分层的效果来看,,,,,MACU对简朴和中等难度使命的提升最为显著,,,,,对极难使命也有一定改善。。。。在Odysseys上,,,,,简朴使命的乐成率从22.2%跃升到82.2%,,,,,中等难度从11.1%升至46.7%,,,,,难题使命从1.8%提升到9.2%,,,,,同时知足指标比例从26.5%改善到43.1%。。。。
从使命类型来看,,,,,最受益于MACU的是那些自然需要并行信息网络的使命:WebTailBench上的"价钱较量"类使命从3.7%提升到33.9%,,,,,"航班搜索"类从14.0%提升到34.0%,,,,,"复合型使命"从24.0%提升到41.8%。。。。OSWorld上改善最显着的是需要跨应用操作的Ubuntu系统使命(从45.8%升至70.8%),,,,,以及LibreOffice全套工具的使命——Writer从47.8%升至60.9%,,,,,Calc从34.0%升至46.8%,,,,,Impress从40.2%升至50.9%。。。。
相比之下,,,,,Online-Mind2Web的中等和难题使命改善有限(划分从50.8%升至51.5%,,,,,37.0%升至38.4%),,,,,进一步印证了这样一个纪律:使命越是自然可拆解、越需要在多个泉源之间并行搜集信息,,,,,MACU的优势就越大;;;;越是线性串行的使命,,,,,收益就越。。。。,,,,治理开销甚至可能拖累整体体现。。。。
最直接的本钱问题是,,,,,MACU在盘算资源上的消耗远大于简单智能体。。。。使用Claude Opus 4.6作为司理时,,,,,平均每个OSWorld使命破费0.21美元,,,,,每个Odysseys使命破费0.90美元,,,,,完整跑完四个基准测试的API用度合计约651美元。。。。关于实质上是串行的使命(如Online-Mind2Web),,,,,MACU不但没有节约时间,,,,,还增添了开销,,,,,说明在安排前需要仔细评估使命特征是否适合多智能体框架。。。。
其次,,,,,整个系统依赖重大的基础设施:自力的虚拟机池、快照克隆机制、文件归档系统、使命图验证逻辑等,,,,,这些都增添了工程重漂后。。。。随着规模扩大,,,,,怎样有用治理这些资源是一个现实挑战。。。。
第三,,,,,评估基准自己也有局限——这些测试是在隔离情形中举行的,,,,,不涉及真适用户账号、私密文件、登录认证或不可作废操作。。。。研究团队明确指出,,,,,目今的效果只能说明多智能体协调是一个有价值的研究偏向,,,,,距离现实安排到真适用户情形还需要进一步研究清静机制、用户授权控制和危害防护步伐。。。。
说究竟,,,,,MACU这项研究做的事情有点像把一支孤苦的能手酿成了一支分工明确的团队。。。。单独的智能体再厉害,,,,,在面临"同时查五家餐厅、比照三个网站价钱、重试失败的操作"这类事情时都会力有未逮,,,,,而一个能无邪调理多个并行智能体、随时凭证新信息修改作战妄想的"司理"AI,,,,,却能把同样的盘算资源用得更智慧、走得更远。。。。
研究效果也清晰地回覆了"什么样的使命值得用多智能体"这个问题:使命越重大、越需要并行信息网络、越长程,,,,,MACU的优势越突出。。。。关于简朴线性使命,,,,,引入多智能体框架反而是给自己增添贫困。。。。这种差别性提醒我们,,,,,未来适用的AI系统可能需要学会"自我判断":什么时间单枪匹马,,,,,什么时间召唤团队。。。。
虽然,,,,,从实验室里的测试乐成到真正让多智能体AI帮你处置惩罚邮件、填报税表、治理日程,,,,,中心尚有很长的路要走,,,,,特殊是在清静性和隐私保;;;し矫。。。。研究团队也坦言,,,,,MACU现在的形式不适合直接安排在真适用户情形中,,,,,任何现实应用都需要加入严酷的权限控制和操作审核机制。。。。对这个领域感兴趣的读者,,,,,可以通过arXiv编号2606.01533找到完整论文,,,,,以及该团队宣布的代码和交互式可视化工具,,,,,亲眼看看那些使命图是怎么在执行历程中动态演变的。。。。
A:通俗CUA是单个AI重新到尾串行执行使命,,,,,而MACU是由一个"司理"AI协调多个"员工"AI并行事情。。。。司理AI把使命拆成有依赖关系的子使命图,,,,,多个员工同时处置惩罚无依赖的部分,,,,,司理还会凭证实时效果动态调解后续妄想,,,,,这是两种基础差别的事情方法。。。。
A:不是。。。。研究发明,,,,,关于自然串行的使命(好比Online-Mind2Web中大大都需要一步接一步完成的网页操作),,,,,MACU不但提升有限,,,,,完成时间反而更长,,,,,由于治理开销凌驾了并行带来的收益。。。。MACU的优势主要体现在可以并行拆分的重大长程使命上,,,,,好比同时盘问多个网站、比照多个泉源的信息。。。。
A:主要实验中,,,,,研究团队用Qwen3.6-27B作为所有员工AI的基础模子,,,,,用Claude Opus 4.6作为司理AI。。。。研究还测试了多种差别的司理模子,,,,,包括GPT-5.4、Gemini系列、Kimi K2.6等,,,,,发明司理模子越强,,,,,整系一切体现越好,,,,,Opus 4.6的效果最佳。。。。
《法国空姐2019(多塞尔航空) 抢先版百度百科》泽连斯基在信中称,乌克兰已做好谈判筹备工作,愿在谈判进程中实施全面停火,并秉持“全部换全部”的原则,与俄方开展战俘交换工作,全力配合推进和平谈判。当土地稀缺与产业外溢形成合力,区位本身就成了硬通货。因此,观宸的热销同样离不开北京四环“最后的价值留白地”的精准卡位。《法国空姐2019(多塞尔航空) 抢先版百度百科》《《售楼小姐》电视剧》但缺陷也写得很清楚:“Claude报告的主要弱点包括:管理周期以上的模糊任务、理解组织优先级、品味、验证、指令遵循和认识论。”意思就是说,它弱的,恰恰是自我驱动的那些事,而自我驱动,是RSI的根基。当前北京楼市整体呈现结构性分化行情,全市二手房库存虽持续回落,但仍处于供大于求的格局,需求与资金明显向核心板块、近郊临铁区域聚集。门头沟整体房价同比仍有小幅下调,但环比已经出现企稳迹象,上涨动力主要来自永定新城板块:该区域靠近主城区,轨道交通S1线、1号线支线覆盖,近年来新盘供应集中在改善型产品,配套商业、教育资源逐步落地,吸引了不少西城、石景山外溢的刚需与改善客户,需求量稳定支撑房价小幅抬升;远郊浅山板块则因为配套不完善,需求量不足,价格仍处于调整阶段。
20260608 ? 《法国空姐2019(多塞尔航空) 抢先版百度百科》F组荷兰vs日本。世界排名第18的日本,有能力击败任何球队。去年10月的热身赛,日本3-2击败巴西,足坛为之震惊;今年3月,日本1-0战胜英格兰,历史上首次击败对手。五十岁姨妈免费寓目电视剧大全百度谈到红牌是否成为一种考验时,格德斯表示:“我们平时不太会遇到10打10的情况,所以这是一次不同的考验,而我们也很好地应对了这种局面。下半场我们踢得很好,打进了两个球,也创造出了更多机会。这场比赛对世界杯备战很有帮助。”
20260608 ? 《法国空姐2019(多塞尔航空) 抢先版百度百科》前面提到过,粉丝社区在今天已经是一个形态和功能都非常成熟的产品。从功能模块来说,它基本包括首页动态流、账户体系、成长体系、投票、用户社区、站内信、AI 助手,以及比较简单的视频点播。《快穿之女配上位(HP)》奥利塞的成长轨迹令人惊叹。2024年夏天,拜仁花费5200万欧元将他从水晶宫带到了德甲赛场。在加盟的首个赛季他就证明了自己的能力,而在过去几个月里,他的竞技水平更是迎来了质的飞跃,一跃跻身顶级高身价球员的行列。