蔡志鹏博士(https://zhipengcai.github.io/)是美国 Meta 公司的高级研究员,,,,,,,博士结业于澳大利亚阿德莱德大学。。。。。他的研究主要集中在 Physical Intelligence,,,,,,,包括三维视觉、多模态大模子等。。。。。他的事情已在领域顶级聚会杂志上揭晓凌驾 20 篇。。。。。其中 10 篇文章被选为顶级聚会口头或特邀报告,,,,,,,对鲁棒预计盘算重漂后的理论证实事情被选为 ECCV18 12 篇最佳论文之一。。。。。
Meta 宣布了一项令人震撼的研究事情 VLM?,,,,,,,首次展现了三维视觉学习的 Bitter Lesson:标准的视觉语言模子 + scale 数据就是最简朴有用的范式,,,,,,,针对特定使命的架构、损失函数以及数据增强的设计,,,,,,,甚至是 regression 的 formulation,,,,,,,均不是三维视觉学习的须要条件。。。。。
目今的视觉语言 AI 模子(Vision Language Models, VLMs)通过统一的模子架构能够无邪处置惩罚州差别的视觉使命。。。。。然而,,,,,,,只管在语义明确、视觉问答、图像指令等使命上体现优异,,,,,,,它们在三维视觉方面仍然体现不佳。。。。。相比之下,,,,,,,专家视觉模子(expert vision models)在绝对深度预计(metric depth estimation)等三维明确使命上,,,,,,,依附专门设计的网络结构、损失函数及数据增强,,,,,,,已经抵达了逾越人类的精度。。。。。
这就带来了一个焦点问题:「视觉语言模子是否在三维视觉学习方面无法替换专家模子???????」VLM? 首次证实晰该问题的谜底是否定的!
VLM? 通过极简的设计,,,,,,,在极为多样的三维视觉使命中媲美或逾越专家视觉模子,,,,,,,并大幅逾越最先进的视觉语言模子:1)在单目深度预计上 match UnidepthV2 及 MoGe2;;;;;2)在目的级三维明确使命上逾越 SpatialRGPT;;;;;3)在像素匹配使命上逾越 DKM 和 RoMa;;;;;4)在相机姿态预计上 match DA3,,,,,,,逾越 VGGT。。。。。
VLM? 通过详尽的实验发明,,,,,,,标准的 VLM 仅需要 1)相机焦距归一化;;;;;2)像素空间归一化,,,,,,,就能够以令人赞叹的精练方法有用学会种种三维视觉模子,,,,,,,在 1)单目深度预计中 match UniDepthV2 及 MoGe2;;;;;2)在目的级别三维明确逾越 SpatialRGPT;;;;;3)在像素匹配使命上逾越 DKM 和 RoMa;;;;;4)在相机姿态预计上 match DA3 并逾越 VGGT。。。。。
和之前的三维视觉 VLM 差别,,,,,,,VLM? 既不需要改变 VLM 的架构,,,,,,,也不需要在图片上渲染 marker。。。。。相比于专家视觉模子需要大宗的架构、损失函数及数据增强方面的重大设计,,,,,,,VLM? 仅需要标准的 VLM 架构(如 Qwen3-vl-4B)和训练(基于文字的 SFT)就能够在极为多样的三维使命上抵达 SOTA。。。。。
这种精练的训练推翻了之前三维视觉的学习范式,,,,,,,并展现了三维视觉的 Bitter Lesson:我们着实完全不需要针对特定三维视觉使命人为设计重大的架构、损失函数及数据增强。。。。。通过简朴的视觉语言建模 + scale 数据就能够抵达同样的效果,,,,,,,并且于其他非三维视觉使命在统一的语言模子训练框架下完全兼容。。。。。这使得三维视觉不再需要与视觉语言模子的大规模预训练疏散,,,,,,,同时我们能够使用同样的方法来实现三维视觉的 scaling law。。。。。
同时 VLM? 的乐成也意味着三维视觉的学习远比我们想象中的要容易:除开不需要特殊架构、损失函数等,,,,,,,我们甚至可以不依赖回归(regression)来学会 fine-grained 3D understanding,,,,,,,这在之前的事情中是难以想象的,,,,,,,由于在一连的输出空间举行回归是绝大大都三维视觉模子的焦点设计。。。。。
VLM? 重新界说了三维视觉的最佳学习范式:最简朴的 generalist 架构如 VLM 及 scaling 就是最通用的三维视觉范式!已往三维视觉领域普遍接纳的人为的 task-specific 的设计并非必需。。。。。
这将极洪流平地简化三维基础模子的构建。。。。。通过将三维视觉使命融入视觉语言模子的预训练,,,,,,,我们也能有用地兼容三维视觉与其它视觉使命,,,,,,,并将 VLM 的优势,,,,,,,及无邪性与泛化性从语义及二维视觉使命有用拓展至三维视觉,,,,,,,极洪流平提升模子的能力上限。。。。。
VLM? 的泛起,,,,,,,首次买通了视觉语言模子与三维视觉之间的壁垒,,,,,,,使得统一的架构就能够精练地学会种种视觉使命,,,,,,,并抵达专家模子的性能。。。。。这既是科研层面的里程碑,,,,,,,也为未来在现实系统中统一多模态推理能力提供了可能。。。。。我们期待 VLM? 后续在机械人、自动驾驶、增强现实等场景中的落地应用。。。。。
绿茶的上位(N)咖啡和糖托蒂表示:“蒙特拉走上了执教这条路,并且做得非常出色。我祝他一切顺利,因为这是他第一次以主教练身份参加如此重要的世界杯,并执教一个如此迷人的国家。我相信他会尽全力带领土耳其队走得更远。”新西兰反击锋线vs英格兰回防转换(基于近期出场推测):新西兰场均射门9.4次,但被射门失球效率仅8.5次/球,说明他们在面对烈度对手时仍能撕出零星机会;英格兰场均被射门只有6.2次,但下半场体能调整后的回防节奏是新西兰唯一现实的破门窗口—任何一次中场被拦截后的高速反击,都会是新西兰本场为数不多的"得分回合"。绿茶的上位(N)咖啡和糖《白洁》近年来,中印尼各领域合作持续深化,从苏拉威西岛的工业园到雅加达的街头商铺,从跨境电商蓬勃兴起到物流文旅产业稳步发展,大批中资企业落地经营,让“会中文”成为当地就业市场的重要加分项。许多印尼年轻人坦言,掌握中文,能够收获更高收入、拥有更广阔的职业前景。中文已然成为一项实用技能,当地青年群体中形成了浓厚的中文学习氛围。如今,从课堂、职场到服务窗口、公共机构,印尼中文学习者越来越多,中文不再只是一门外语,而是逐步融入当地教育体系与社会运行,成为联结中印尼两国的重要纽带。因为在这样的审美结构下,“瘦”是关于美的最便捷解法,它几乎零门槛:你无需费心钻研复杂的剪裁与配色,也不必耗费巨资购置当季新款。
20260610 ? 绿茶的上位(N)咖啡和糖我只能重复一遍——我们要成为一支很难被击败的球队。我们要先踢好小组赛,争取小组第一。然后进入淘汰赛阶段继续前进。越往后走,比赛越像“生死战”。世界杯历史也告诉我们:并不是每次都是专家预测的那样发展。热门球队当然有时会赢,但也经常提前出局。我的漂亮小后妈智通财经APP获悉,默沙东(MRK.US)和吉利德科学(GILD.US)表示,含有默沙东药物伊斯拉曲韦(islatravir)和吉利德药物莱那卡帕韦(lenacapavir)的复方药片的两项 3 期试验的初步结果达到了主要终点。
20260610 ? 绿茶的上位(N)咖啡和糖托纳利本人显然想离开纽卡斯尔,转会到一家英超强队。如果曼城签下了安德森,就不会选择托纳利。今年1月,托纳利的经纪人也透露,阿森纳是很有可能成为他下一站,因此普遍认为,酋长球场或老特拉福德很可能会成为他的下一站。《AAAAAAAAAAAAXX体现什么-百度》之后他转会至曼城,在瓜迪奥拉麾下效力:“英格兰的经历非常棒。我以前总是在电视上看英超联赛,我喜欢那种强度。比赛很精彩,他们的踢球方式也很棒。瓜迪奥拉改变了我对足球的思维方式,改变了我思考比赛的方式。我能在这个年纪依然踢球——甚至为巴西队效力——都要归功于和他在一起的那段时光。如果只依靠身体状态,35岁时是不可能做到的,但瓜迪奥拉帮助我以不同的方式思考,思考空间、时机和对手。两年前我在尤文图斯,我们和曼城踢过比赛。我抓住机会跟瓜迪奥拉说了这件事。”