由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0,,,,是一款面向下一代感知智能的视觉语言大模子。。。。。。团队充分使用视频 Codec 流和自研 OneVision-Encoder,,,,实现跨帧、跨事务的增量视察和一连证据流建模。。。。。。本文将详细先容模子架构、训练要领与能力验证,,,,展示该手艺在视频明确、空间推理和目的追踪等使命中的应用潜力。。。。。。
以「码流(Codec-Stream)」为视觉单位的多模态大模子 —— 让视频不再被切成伶仃帧,,,,而成为一条由比特率、运动矢量与残差配合点亮的证据流。。。。。。
OV2-8B 模子在 18 项视频使命、11 项空间推理使命、4 项跟踪使命中泛起稳固综合优势;;;自研 JumpScore 则把焦点问题推到台前:当行动高度重复、要害瞬间稍纵即逝,,,,模子是否真的记着了 “第一再爆发”???????模子基于 Qwen3-8B 语言模子与团队自研 OneVision-Encoder,,,,训练流程、数据和权重所有开源。。。。。。
Codec 不是由于酷才被发明,,,,而是被通讯与存储的硬约束逼出来的:若把每一帧都看成自力图像,,,,码率会随区分率和帧率一起失控。。。。。???????衫┱沟墓こ条杈吨挥幸惶 —— 使用时间冗余:把可继续的部分写成状态,,,,把无法忽略的转变写成差分。。。。。。
这条线从早期展望编码一起走到 H.264/H.265/H.266,,,,手艺名词换了一代又一代,,,,焦点问题险些没变:在参考帧上做展望,,,,只为运动向量与残差支付特殊比特。。。。。。
换到建模语言,,,,codec 不但是压缩器,,,,更像一个外置的展望模子:它把视频拆成「上下文 + 增量证据」。。。。。。几何位移告诉我们物体怎样移动,,,,残差告诉我们展望在那里失败 —— 而失败,,,,往往正是天下真正爆发转变的地方。。。。。。
焦点信心|让模子为真实转变付费Codec 的质朴信仰:能被上下文推出的,,,,不必一遍遍重看;;;真正值得付费的,,,,是迫使模子修正判断的增量。。。。。。我们把这套工程语法上升为视觉建模先验 —— 让 ViT 以「状态 + 增量视察」的方法读取天下,,,,也提醒读者:所谓智能,,,,往往不是看得更多,,,,而是知道那里值得看。。。。。。
自然视频并不平均。。。。。。配景、视角与光照大都时间缓慢漂移,,,,古板 dense patch 或匀称采帧却把一律盘算撒向每个位置、每一帧,,,,token 预算最先被可展望的配景吃掉。。。。。。
Codec 的设计更像一套事务雷达:I-frame 建设上下文,,,,P/B-frame 只纪录运动向量与残差。。。。。。它们不是压缩副产品,,,,而是视频在时间轴上新泛起的证据。。。。。。
OV-Encoder 的取舍很直接:不把 codec 看成省带宽的技巧,,,,而把它看成视频结构的显式标注。。。。。。当 tokenization 与这套结构对齐,,,,模子学习的目的就从「平均看像素」酿成「在状态之上诠释转变」。。。。。。
OV-Encoder 在统一多模态评测设置下,,,,相较 Qwen3-ViT 与 SigLIP2 泛起稳固收益(16 项图像 / 视频 / 文档基准),,,,视频明确平均提升约 +4.1%;;;监视预算为 100B caption tokens,,,,而比照基线使用 2.1T+。。。。。。它的要害不但是分数转变,,,,而是换了一种寓目方法:把 Codec 的展望式结构写进 ViT,,,,让 LLaVA-OneVision-2.0 可以直接沿着「状态 — 转变 — 证据」这条链路明确视频。。。。。。
一段视频里,,,,大宗画面只是前一刻的延续;;;真正改变判断的瞬间,,,,可能是突然起跳、一次转身、一个遮挡或场景切换。。。。。。匀称抽帧会把预算花在 “险些没变” 的配景上,,,,也可能错过那一帧真正改写语义的证据。。。。。。
视频编解码(H.264/H.265)早就把这个问题写进了码流:I 帧给出上下文,,,,P/B 帧用运动向量和残差纪录转变;;;当某段 P/B 帧的 bit 价钱突然抬升,,,,通常意味着运动、遮挡或场景结构正在变得主要。。。。。。
采样视频、码流视频、原生区分率图像 —— 三种证据形态被统一个 OneVision-Encoder 接住,,,,编码为带 3D RoPE 的视觉 Token,,,,再经轻量 MLP 投射到 Qwen3-8B 自回归解码器。。。。。。接口统一,,,,证据多源;;;这让模子既能读静态图,,,,也能沿着视频的转变线索推理。。。。。。
与古板「牢靠 GOP / 等距采帧」差别,,,,LLaVA-OneVision-2.0 把 P/B 帧字节数视为「语义增量」署理:比特率峰值自顺应切分时序组,,,,组内再用运动残差挑出真正转变的 2×2 Patch 区块,,,,打包进紧凑 I/P 画布。。。。。。事务麋集处密 Token,,,,平稳处稀 Token—— 把算力从配景转向事务。。。。。。
① GOP Partition:用 P/B 帧 Packet Energy(字节数)定位事务峰值,,,,事务麋集区短组、平稳区长组;;;② Scoring:融合 Motion Energy、Residual Energy 与 Patch 级比特率先验,,,,获得逐 Patch 的 Fused Score;;;③ Block Selection:以 2×2 Patch 区块为最小单位,,,,阻止合并不相关区域;;;④ Canvas Packing:每个 GOP 输出一张 I-canvas 与若干 P-canvas,,,,形成紧凑画布序列。。。。。。
这组效果真正想回覆的,,,,不是名次,,,,而是一个更底层的问题:当视频变长、行动变密、空间关系变重大时,,,,模子还能不可把要害瞬间生涯下来,,,,并在回覆时重新挪用出来???????
在评测中,,,,OV-2-8B 的几个坐标划分是:18 项视频明确平均 62.5,,,,11 项空间推理平均 63.5,,,,4 项目的追踪 J&F 平均 48.0。。。。。。数字在这里的价值不在名次,,,,而是为了说明 Codec-Stream 的取向:把 token 预算自然推向运动、遮挡、视角转变和事务转折,,,,而不是平均消耗在重复配景上。。。。。。
更值得看的,,,,是那些对时间和几何特殊敏感的压力场景。。。。。。CrossPoint、TraceSpatial-3D 与追踪类使命并不但考 “认出画面里有什么”,,,,而是在考模子能否稳固明确位置、顺序、偏向与一连运动。。。。。。它们提醒我们:下一代视觉语言模子的竞争点,,,,可能不再是单帧里看到了几多细节,,,,而是能否把时间中的证据组织成可验证的推理链。。。。。。
追踪效果也需要审慎解读:LLaVA-OneVision-2.0 输出的是每帧 (x, y) 追踪点,,,,再交给 SAM2 天生 mask。。。。。。因此,,,,这组体现反应的是 “时序点定位能力 × 支解器响应质量” 的联动效果,,,,而不是模子自力完成所有支解办法。。。。。。
图像与文档明确则坚持在同级 8B 模子的相近水平;;;在 OCRBench、InfoVQA 这类文字麋集使命上仍有提升空间。。。。。。这条界线很主要:Codec-Stream 强化的是一连天下中的事务感知,,,,而不是把所有视觉能力都一次性装进统一个谜底里。。。。。。
这部分数据笼罩 2D/3D 空间关系问答,,,,泉源包括室内场景注释、模拟器轨迹和网络视频。。。。。;;;同时连系点式追踪与时空指向数据,,,,专门把模子推向 “看懂位置、偏向与一连行动” 的能力。。。。。。
Stage 1:混淆来自 LLaVA-OV-1.5 的 85m 图文对数据 + 4.2M 30s 视频字幕,,,,最大 30 帧,,,,标准匀称采样Stage 2:加入 22M 指令数据 + 24M FineVision + 2.7M 30–60s + 70 万 60–180s 视频字幕,,,,最大 90 帧,,,,仍是匀称采样Stage 3:加入 350K 10–15 分钟长视频字幕,,,,最大 384 帧,,,,仍是匀称采样Stage 4:对 10–15 分钟语料启用 Codec 流 tokenization(384 帧 + 768 帧两个密度),,,,同时加入空间推理语料和追踪数据
值得注重的是:Codec 流并非从一最先就加入,,,,而是在 Stage 4 才用于 10–15 分钟长视频语料;;;其余数据仍保存标准名堂。。。。。。这让模子在统一接口下同时学习匀称采样与码流输入。。。。。。
最终每个训练 step 的 batch 约为 50% codec 视频、37.5% 匀称采样视频、12.5% 图像。。。。。;;;痪浠八,,,,LLaVA-OneVision-2.0 不是只会读一种名堂,,,,而是在多种视觉证据之间学会切换。。。。。。在训练历程中,,,,团队也借助了全模态训练框架 LoongForge,,,,为相关训练与迭代提供支持。。。。。。
难点在于,,,,每次跳绳看上去险些一样。。。。。。模子不可只认出「有人在跳绳」,,,,还必需在重复行动中坚持计数、定位和节奏影象。。。。。。匀称采样的帧经常相似到难以区分,,,,这正是码流证据可能施展作用的地方。。。。。。
数据集包括 189 段真实录制的跳绳视频,,,,84% 以上区分率抵达 1920×1080;;;时间标注准确到小数点后一位,,,,基准点是绳子经由腿部后侧的那一帧。。。。。。
JumpScore 上,,,,LLaVA-OneVision-2.0 的 mAP 为 74.9。。。。。。这个数字之以是值得被放大,,,,不是由于它刷新了某个刻度,,,,而是由于它把一个更难的问题摆到台前:当每一次跳绳在画面上险些相同,,,,模子是否真的记着了第一再、何时爆发、节奏怎样转变???????也需要冷静明确:JumpScore 与 codec 流善于的高频重复运动自然贴近,,,,保存一定 “主场优势”。。。。。。它的价值,,,,是把时序明确从 “找到行动片断” 推进到 “追踪重复事务中的顺序、节奏与因果线索”。。。。。。
牢靠 Token 预算下,,,,码流流式输入相对匀称采帧在时间定位上获得 +9.7 分增益;;;在长视频设置中,,,,可将 Patch 从 128k 压到 16k(87.5% 压缩)而只管保存要害瞬间。。。。。。时序定位(Charades-STA、ActivityNet、QVHighlights):在低帧数预算下尤其显着,,,,4 帧预算时 QVHighlights 上 codec 凌驾匀称采样 15.4 分,,,,跳绳等高频重复运动的细粒度定位(JumpScore)。。。。。。
Codec 的信心看似质朴,,,,却是下一代感知智能:能被上下文推出的,,,,不必重复重看;;;真正值得付费的,,,,是迫使模子修正判断的真实增量。。。。。。
这背后有一个更大的问题:智能是否一定来自看得更多???????LLaVA-OneVision-2.0 给出的回覆是 —— 未必。。。。。。智能也可能来自更好的选择性注重:少复述配景,,,,多追踪转变;;;少平均分派算力,,,,多围绕证据组织推理。。。。。。
OneVision-Encoder 把 Codec 的展望式结构写进 ViT,,,,LLaVA-OneVision-2.0 则把整段压缩流酿成一连证据流。。。。。。下一步,,,,这一蹊径将继续走向流式感知与小时级超长视频建模。。。。。。真正值得期待的,,,,不但是更长上下文,,,,而是模子能否在漫长视频中坚持一种苏醒:知道什么已经被继续,,,,什么正在改变,,,,什么需要被重新诠释。。。。。。
LLaVA-OneVision-2.0 展示了格灵深瞳灵感实验室在视觉语言模子与多模态视频明确领域的最新手艺积累。。。。。。通过 Codec 流与 OneVision-Encoder 的连系,,,,模子能够在高密度重复行动与长时序视频中捕获要害证据,,,,实现准确明确与推理。。。。。。
未来,,,,团队将继续优化全帧率视频明确能力,,,,并探索更多跨场景应用,,,,为视觉 AI 手艺的可扩展落地提供支持。。。。。。相关代码、模子与数据已开放,,,,期待与手艺社区配合探索下一代多模态感知智能的更多可能。。。。。。
公与媳妇可灵 AI 昨日宣布,产品发布两年后,全球用户数已突破 1 亿,企业客户接近 5 万。官方称,过去一年可灵完成 26 次迭代,应用场景覆盖影视、广告、音乐 MV、游戏、电商和智能硬件等领域。可灵还发布了两周年短片,全片由可灵 AI 生成。答:必须承认,西班牙人通常情绪起伏很大,会在短时间内从过度亢奋跌入深度低落。我不认为联赛第二、在欧战中体面出局是什么灾难。这不是一个好赛季,但也不是悲剧。公与媳妇三叶草ozweego3m此类围报行为并非个例。据红星新闻此前报道,2025年2月,在某省公务员考试报名期间,一名考生在填报信息时发现自己的身份信息遭他人盗用,导致其本人无法正常报名,遂向该省人事考试院举报反映,此事经警方侦办牵出一起侵犯公民个人信息的案件。决赛大半看台都是英格兰球迷,我一遍遍脑补落败回国后,日后去到任何球场都会被球迷拿这场失利调侃的画面。夺冠之后,我满心自豪。
20260607 ? 公与媳妇总决赛战局即将转战纽约,尼克斯手握大比分2-0领先。北京时间6月9日,双方将在麦迪逊广场花园展开第三场对决。若尼克斯再下一城,连胜纪录将刷新至14场,球队也将距离总冠军仅一步之遥。朋侪的妻子巴萨刚刚经历了一个出色的赛季,其年轻核心球员——亚马尔、佩德里、加维、费尔明、马克·贝尔纳尔、马丁、库巴西和琼·加西亚均在25岁或以下——实力位居欧洲顶级。这是积极的一面。
20260607 ? 公与媳妇在具体分类中,苹果把大量「数字商品和服务」的收入纳入统计,包括在 App Store 外订阅、但可在苹果设备或应用中使用的服务,例如 Hulu、Audible、Spotify 以及《纽约时报》等。这也引出一个问题:如果用户在网页端购买了例如 YouTube Premium 的订阅,却在 Apple TV 上观看,这笔交易是否也被算进 App Store 生态数据中?《丈夫不在公么追我免费寓目电视剧最》需要说明的是,苹果并未单独披露App Store收入,而是将其归入服务业务部门。作为仅次于iPhone的第二大业务板块,服务业务在2025财年为苹果贡献了1091亿美元收入,约占公司总营收4161亿美元的四分之一;同期iPhone业务收入为2095亿美元。