2026年6月3日,,,在ICRA 2026大会的主题演讲环节,,,德克萨斯大学奥斯汀分校副教授、NVIDIA GEAR团队认真人朱玉可(Yuke Zhu)揭晓了关于人形机械人基础模子的最新演讲。。。。。他在演讲中系统性地拆解了目今人形机械人面临的最大瓶颈——数据,,,并提出了以“数据金字塔”为框架、以“天下模子”为引擎的规;;;;肪。。。。。
朱玉可指出,,,人形机械人正在进入一个全新的加速阶段:硬件日益成熟,,,学习算法和基础模子的规;;;;苍诳焖偻平。。。。。但真正制约这一领域从Demo走向大规模安排的,,,仍然是数据。。。。。真实机械人数据质量最高但极其稀缺,,,仿真数据可以无限天生但保存仿真到真实的鸿沟。。。。。
为此,,,他提出了一个三层数据金字塔战略:底层是海量但被动的互联网人类视频数据,,,中层是可无限天生的合成数据,,,顶层是真实机械人数据。。。。。
他的焦点看法是:不应押注简单数据源,,,而应以异质方法搜集三种数据,,,同时让天下模子饰演“数据海绵”的角色,,,吸收并整合所有类型的数据。。。。。
在详细实践中,,,朱玉可展示了两个典范案例:一是SONIC——使用大规模人类行动捕获数据训练人形机械人全身控制器,,,通过运动跟踪目的大幅简化了强化学习的奖励函数设计,,,实现万小时级别的规;;;;盗;;;;二是EgoScale——从第一人称视角的人类视频中学习,,,通过“预训练获取人类知识→对齐训练压缩知识→后训练表达知识”的三阶段计划,,,使得机械人仅需不到1%的真实机械人数据就能完成重大操作使命。。。。。
整场演讲最令人振奋的结论,,,来自DreamZero天下行动(World Action Model,,,WAM)模子:通过将视频天生模子转化为行动天生器,,,纯AI天生的虚拟轨迹在训练价值上险些100%等效于真实物理数据。。。。。
朱玉可最后强调,,,要推动整个领域前进,,,开源和开放是不可或缺的。。。。。NVIDIA已开源GR00T基础模子、Isaac仿真框架及相关数据集,,,并刚刚宣布了首个H2 Plus参考平台。。。。。
我今天要讲的是人形机械人和基础模子。。。。。先给一个总结:我以为我们正在进入人形机械人手艺的一个全新时代。。。。。硬件越来越强盛,,,学习算法、基础模子的规;;;;苍嚼丛娇尚。。。。。
“打造自主的、类人的机械人”这个梦想,,,已经让人类着迷了数百年。。。。;;;;等苏飧龃首钤绯鲎1920年卡雷尔·恰佩克的戏剧,,,名字就叫《罗素姆的万能机械人》。。。。。从一最先,,,人们就把机械人想象成类人的通用事情者,,,而不是为特定用途定制的机械。。。。。
回首人形机械人的生长历程,,,我们看到一波又一波的炒作周期:从七八十年月论证手艺可行性的看法验证系统,,,到那些最终没有实现大规模商业乐成的愿景原型,,,再到社交朋侪机械人。。。。。约莫十年前,,,DARPA机械人挑战赛给我们泼了一盆冷水,,,清晰展现了纵然在人类监视下,,,让机械人进入现实使用有何等难题。。。。。直到现在,,,没有任何一款人形机械人实现了大规模、快速的安排。。。。。
但在2022年左右,,,我们最先看到一场“人形机械人爆炸”。。。。。各至公司、首创企业、研究机构都在制造越来越强盛的机械人。。。。。我以为这在很洪流平上是由AI和基础模子、大语言模子的前进所驱动的。。。。。今天,,,我会展示我们最新的研究效果,,,我的目的是让你们看到:我们有理由坚持乐观,,,由于前进是扎实的。。。。。
约莫两年前,,,我有幸在英伟达向导一支人形机械人研究团队。。。。。2024年3月GTC大会上,,,黄仁勋走上台宣布了GR00T项目。。。。。这是一个为构建人形机械人全栈解决计划的妄想。。。。。GR00T-1是我们推出的第一个开源人形基础模子。。。。。
整体架构接纳了一种双层设计。。。。。系统二是一个视觉语言模子,,,吸收图像和语言指令作为输入,,,天生行动token;;;;这些token转达给系统一,,,即扩散Transformer,,,天生闭环行动供机械人执行。。。。。整个模子可以端到端训练。。。。。
但在实践中,,,当你需要控制一个凌驾四五十个自由度的系统时,,,通;;;;剐枰桓鲇们炕把盗返娜砜刂破,,,将基础模子爆发的高级指令转化为每个枢纽的最终执行行动。。。。。预训练模子付与机械人泛化能力,,,使其能够遵照差别的语言指令,,,对差别物体和使命目的执行使命。。。。。模子还可以进一步举行后训练,,,执行更重大的操作。。。。。
在我们最新的GR00T迭代版本N1.7中,,,我们实验解锁机械人的整个运动学规模,,,通过全身运动操作完成使命。。。。。这个模子仅用几十个演示举行后训练,,,就能完成重大的工业流程使命。。。。。
约莫几年前,,,我提出了一个“数据金字塔”的看法,,,它清晰说明晰888集团数据战略:我们不会只依赖简单数据源来扩展,,,而是要大规模地搜集异质数据源。。。。。
与其只依赖一种数据源,,,888集团大宗研究都致力于怎样有用使用整个数据金字塔。。。。。今天我想把重点放在金字塔的最底层,,,人类数据。。。。。
我以为人类数据是现在最具可扩展性的数据泉源。。。。;;;;チ匀宋行,,,捕获了我们天下的样子、人类的行为方法、一样平常使命和一样平常生涯。。。。。而人形机械人可能是消耗这类数据最自然的形态,,,由于形态差别更小。。。。。
关于人类行动捕获数据,,,我们在一个叫SONIC的事情中探索用它训练通用的人形全身控制器。。。。。焦点思绪是:首先将人类运动重定向到特定人形机械人的形态上,,,天生对应的动捕数据库,,,然后将运动跟踪作为强化学习的训练目的。。。。。
这种组合极大简化了奖励函数的设计,,,从而使规;;;;炕把盗烦晌赡。。。。。做大规模的事情时,,,精练往往带来更好的可扩展性。。。。。
我们在三个维度上扩展了模子训练:参数目从120万提升到4200万,,,这个规模足够强盛,,,但依然小到可以安排在机械人本体的NVIDIA Jetson上;;;;数据量抵达1亿帧,,,总计凌驾10700小时的人类动捕数据;;;;训练使用了9000个GPU小时,,,每个GPU运行自己的物理仿真副本,,,合计相当于数千年的真实机械人履历。。。。。
SONIC的要害在于行动的自然流通度,,,这主要来自运动跟踪目的,,,让模子更好地模拟人类运动。。。。。这个模子可以接受遥操作、基础模子输出、甚至人类视频作为高级指令。。。。。我们已将其安排在宇树G1机械人上,,,训练代码、安排框架和数据集完全开源。。。。。
这类视频提供了一个窗口,,,让我们视察人类日;;;;疃懈缓竦亩嘌院椭卮笮。。。。。在最近的事情EgoScale中,,,我们跟踪人类手腕和手指在三维空间中的运动,,,也就是说把人想象成一个机械人,,,头部运动就是行动空间,,,云云将第一人称视角视频转化为训练数据。。。。。
EgoScale的训练计划由三个阶段组成:第一阶段仅在人类视频上预训练,,,从第一人称视角视角展望手部运动;;;;第二阶段在配对的人机数据上对齐表征,,,使知识从人类领域迁徙到机械人领域;;;;第三阶段用少量真实机械人数据精调模子。。。。。
用看法框架来明确:预训练阶段是“获取人类知识”,,,从视频中收获知识和物理知识;;;;对齐训练阶段是“压缩知识”,,,从人类领域压缩到机械人领域;;;;后训练阶段是“表达知识”,,,使用积累的知识解决详细使命。。。。。
这项事情最让我兴奋的是,,,模子对更多人类视频数据有着重大的胃口。。。。。当我们将视频数据从1000小时扩展到20000小时,,,模子性能稳步提升,,,泛起出近乎完善的对数线性关系,,,意味着继续投入数据,,,性能还会一连提升。。。。。
真正的“邪术”来自预训练,,,预训练得越好,,,后逊需数据就越少。。。。。这就是888集团规;;;;苹壕蟛糠质堇醋匀死嗍,,,不到1%来自真实机械人。。。。。
在演讲剩余的时间里,,,我要讲讲“海绵”的故事。。。。。我所说的海绵,,,是天下模子。。。。。天下模子像海绵,,,由于它有一种神奇的能力,,,可以吸收数据金字塔中种种类型的数据。。。。。
它可以从互联网视频中学习,,,获取知识和物理知识、语义知识和程序性知识;;;;可以从合成数据中学习,,,受益于控制多样性;;;;可以从真实机械人轨迹中学习,,,精化特定使命的表征;;;;可以从多模态数据、音频数据中学习。。。。。也许最主要的是,,,可以从失败数据中学习,,,这类数据对战略刷新很是有用。。。。。
我们在DreamZero事情中探索了这个想法,,,用天下模子构建下一代NVIDIA基础模子。。。。。焦点是“天下行动模子”,,,想象视频天生模子怎样事情:从初始帧最先,,,从一个带噪声的视频出发,,,逐步去噪,,,天生清晰视频。。。。。在大规;;;;チ萆涎盗氛庋哪W,,,它能捕获相当多的物理明确。。。。。然后在机械人数据上微调,,,告诉模子机械人应该长什么样、应该怎样运动。。。。。
要害立异在于,,,我们不但让模子天生未来画面,,,还增添一个扩散通道同步天生行动。。。。。测试时我们扬弃未来帧展望,,,只提取行动执行。。。。。仅通过视频天生模子或天下模子,,,就能显著增强视角泛化能力和行为克隆的样本效率。。。。。
这是我第一次在果真场合展示这些效果。。。。。训练GR00T基础模子执行重大使命,,,展示了闭环战略学习和反应式恢复行为。。。。。若是你从事机械人研究足够久,,,会认出这个YCB数据集中的物体。。。。。十年前我看到它时,,,以为绝不可能用机械人完成这样的装配使命。。。。。但现在,,,有了基础模子,,,这已经酿成可能了。。。。。并且是在一天之内完成的,,,无需任何人工干预。。。。。
我对已往两年取得的希望感应兴奋,,,社区中的加速很是惊人。。。。。但也很容易看到,,,尚有大宗事情需要做,,,我们需要更普遍的研究社区加入。。。。。这也是为什么我小我私家很是坚定地看好开源。。。。。
就在这个星期一,,,我们刚刚宣布了首个H2 Plus参考平台。。。。。打造人形机械人的梦想已经让我们着迷了凌驾一百年。。。。。但最终,,,我看到种种手艺要素正在汇聚,,,让我们真正有可能实现这个梦想。。。。。我约请在座列位一起加入,,,配合将这个梦想变为现实。。。。。
朱玉可:这是一个很是好的问题。。。。。若是你看过大语言模子是怎样训练的,,,就会知道预训练只是训练的第一阶段。。。。。在机械人领域,,,后训练和对齐同样要害。。。。。你需要针对特定使命场景,,,用高质量的领域数据举行精调。。。。。同时,,,可复现性需要严酷的评估基准和标准化的测试协议,,,这一点我们在YCB等基准事情的基础上还需要一连推进。。。。。总的来说,,,预训练给你泛化的底座,,,后训练给你领域的深度,,,两者缺一不可。。。。。
《西厢谭艳》高清修复版百度云这位来自奥萨斯科的球员承认:“足球的发展是自然而然的。有时候事情的发生不需要你付出太多努力,但你会发现这是很自然的,你知道吗?巴西球员需要开心才能踢球,不是吗?没办法,兄弟。无论你是多么出色的球星,当你不开心且缺乏信心时,一切都不会顺利。我认为……我说这些是因为我觉得当你达到欧洲这样的职业水平时,已经没有人需要教你如何踢球了。重要的是照顾好自己的心态,保持良好的精神状态才能在球场上发挥,对吧?”弗洛伦蒂诺向良十四世赠送了一件印有他本名(罗伯特-F-普雷沃斯特)以及1号球衣号码的定制版皇马球衣,此外还赠送了一座伯纳乌球场的模型复制品。《西厢谭艳》高清修复版百度云绿茶的上位(N)咖啡和糖在具体分类中,苹果把大量「数字商品和服务」的收入纳入统计,包括在 App Store 外订阅、但可在苹果设备或应用中使用的服务,例如 Hulu、Audible、Spotify 以及《纽约时报》等。这也引出一个问题:如果用户在网页端购买了例如 YouTube Premium 的订阅,却在 Apple TV 上观看,这笔交易是否也被算进 App Store 生态数据中?东营市疾控中心营养与食品卫生科负责人李俊青介绍,曼陀罗(俗称“大麻子”“洋金花”)全株剧毒,根、茎、叶、幼苗、种子均含有毒生物碱,毒素耐高温,水洗、焯水、蒸煮都无法分解去毒。
20260609 ? 《西厢谭艳》高清修复版百度云摩根大通分析师团队由上月刚接手特斯拉研究覆盖的Rajat Gupta领衔,在周五发布的报告中指出,投资者正将目光投向特斯拉放缓的核心电动车业务之外,聚焦于机器人出租车、人形机器人、AI芯片及软件服务等未来增长引擎,这些业务有望在未来十年重塑公司盈利结构。办公室秘书和老板办公桌的配景与经耐人寻味的是,该论坛由私营部门主持,其中一位核心报告作者同时担任微软的战略外部事务总监与该论坛的主任;该研究中心一份反对数据本地化的报告,则在脚注中披露接受了Facebook的资助。当对话桌与游说桌由同一批人主持时,“嵌入式塑造”与“直接干预”之间的界限已经难以划清。
20260609 ? 《西厢谭艳》高清修复版百度云在AI重磅升级之外,苹果各个OS重点提升了响应速度,提升了日常使用的便捷性,这一部分升级非常“细碎”,流畅度提升方面,iPhone和iPad的App启动速度最高提升了30%、苹果还通过CPU调度器升级,提升了老iPhone的流畅度。蒙面交流俱乐部小说TXT百度云他指出,华为云致力于打造 "硅基黑土地",首先要让硅基技术足够先进,让这片 "黑土地" 足够肥沃。"这也是我们和其他云厂商的不同之处,我们不愿意去争夺行业收入规模第二或第几的名次,这没有意义。"