888集团

EN welcometo接待光临888集团(中国)有限公司 welcometo接待光临888集团(中国)有限公司
www.ahsjsjt.cn

《网恋后被双胞胎爆烂了小说》逾越TurboQuant,,,,,长上下文推理真2-bit KV Quantization算法问世

本文作者 Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist,,,,,悉尼大学博士,,,,,研究偏向为高效机械学习系统,,,,,偏向笼罩 模子训推算法与系统协同设计,,,,,LLM 压缩与量化。 。。。。。团队成员均来自 TogetherAI,,,,,悉尼大学以及伊利诺伊大学厄巴纳 — 香槟分校。 。。。。。 长上下文模子越来越强,,,,,但效劳时的瓶颈往往不是算力,,,,,而是 KV Cache:每天生一个 token,,,,,都要从显存中读取越来越长的历史 key,,,,,value。 。。。。。上下文越长、batch 越大,,,,,KV Cache 越吃显存,,,,,也越吃带宽。 。。。。。把历史 KV 压到 2-bit,,,,,理论上可以让历史段显存镌汰约8 倍;;;但真正难的是,,,,,压完之后推理能力不可崩,,,,,系统也必需能在真实 serving 框架里跑起来。 。。。。。 为什么 2-bit KV Cache 这么难????INT2 只有 4 个量化品级,,,,,而 KV activation 中经常有少数幅值极大的 outlier channel。 。。。。。若是这些 outlier 主导量化标准,,,,,大大都正常值会被挤到很少的有用品级里,,,,,注重力漫衍很快漂移。 。。。。。通俗 Hadamard 旋转能把 outlier 摊平,,,,,但它不知道模子在 attention 里真正读哪些偏向。 。。。。。OSCAR 的焦点就是把旋转目的从「重修原始 K/V 向量」改成「保存 attention 消耗 KV 的方法」。 。。。。。 相比之前量化的事情,,,,,好比 TurboQuant 压缩的是向量,,,,,但忽略了真正影响模子的是 attention 的质量,,,,,OSCAR 保存的是 attention 真正会读的偏向。 。。。。。质朴 INT2 和全模子层的 3-bit K/V TurboQuant 都会在难题推理使命上显着掉分;;;OSCAR 在约2.28 effective bits per KV element下仍能靠近 BF16,,,,,并在 Qwen3-4B-Thinking 上相对 3-bit K/V TurboQuant 最高提升40.1 分。 。。。。。 图 1 比照了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化误差撒播链路上的差别。 。。。。。要害点是,,,,,原始 K/V 的重修误差并不可完全诠释模子最终体现;;;真正影响推理质量的是 attention-score KL、attention-block output MSE 以及后续 hidden-state error。 。。。。。OSCAR 的优势不但是让向量数值更平滑,,,,,而是把量化误差压到 attention 不敏感的偏向上。 。。。。。 详细来说,,,,,对 key 来说,,,,,量化误差会进入 attention logits,,,,,也就是 QK?,,,,,因此 OSCAR 用 query covariance(Q?Q)结构 key 的旋转目的;;;对 value 来说,,,,,误差经由注重力权重进入输出,,,,,因此 OSCAR 使用 score-weighted value covariance(V?S?SV)。 。。。。。离线校准阶段,,,,,OSCAR 从少量校准样本中预计这些 attention-aware covariance,,,,,为每层、每个 head 天生牢靠旋转和 clipping 阈值。 。。。。。最终旋转写作R = U?Hadamard?bit-reversal:U 瞄准 attention 相关偏向,,,,,Hadamard 疏散 outlier,,,,,bit-reversal 平衡 INT2 分组,,,,,阻止某个 group 被少数通道支配。 。。。。。 其中 sink token 和 recent window 坚持 BF16,,,,,用来;;; attention sink 与短期局部上下文;;;中心最长的历史段存成旋转后的 INT2。 。。。。。新 token 先写入 recent window,,,,,随着解码推进,,,,,最老的 recent token 再由融合 Triton kernel 执行 rotate /clip/quantize/pack,,,,,并 demote 到 INT2 history。 。。。。。每 4 个 2-bit 值打包进 1 个 byte。 。。。。。decode 阶段,,,,,OSCAR 在 GPU 上把缓存分成 BF16 段和 INT2 段:INT2 kernel 认真 unpack、scale/zero point 还原和浮点累加,,,,,BF16 kernel 处置惩罚 sink/recent,,,,,最后用 online softmax merge 合并效果。 。。。。。它同时兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline,,,,,因此可以直接用于长上下文 workload,,,,,而不是停留在论文图内外。 。。。。。 图 2 展示 OSCAR 从离线校准到在线 serving 的完整路径。 。。。。。左侧是离线阶段:OSCAR 从少量校准样本中预计 attention-aware rotation 和 clipping threshold,,,,,让 KV activation 在进入 INT2 前变得更适合量化。 。。。。。右侧是在线阶段:sink/recent token 继续坚持 BF16,,,,,中心最长的 history KV 进入旋转后的 INT2 cache,,,,,并在 SGLang paged KV 中完成真实 serving。 。。。。。因此 OSCAR 不是简单量化技巧,,,,,而是一整套 2-bit KV Cache pipeline。 。。。。。 OSCAR 在2.28 BPE下,,,,,Qwen3-4B-Thinking 距 BF16 仅3.78分,,,,,Qwen3-8B 距 BF16 仅1.42 分,,,,,Qwen3-32B 与 GLM-4.7-FP8 基本与 BF16 持平。 。。。。。相比之下,,,,,QuaRot-INT2 和 naive INT2 在这些 reasoning /coding 使命上大多直接瓦解;;;TurboQuant 在全层 3-bit K/V、无 mixed-precision ;;;さ墓柚孟拢,,,,也在小模子推理使命上掉明确显。 。。。。。 OSCAR还在128K长上下文设置下对中 / 大规模模子做了 RULER-NIAH 测试:OSCAR 在 Qwen3-8B 和 GLM-4.7-FP8 上都坚持了显着更稳固的检索性能,,,,,说明这种 attention-aware 旋转不但能撑住短评测,,,,,也能对抗超长历史中 KV 误差的累积。 。。。。;;;痪浠八担,,,,OSCAR 是少数能在真近 2-bit 设置下仍坚持现代 reasoning model 质量的要领。 。。。。。 系统收益也很是直接:相对 BF16 history storage,,,,,OSCAR 可镌汰约8×KV Cache memory;;;在 100k context、batch-size-1、full prefix-cache hit 设置下,,,,,decode 最高约3×加速;;;在大 batch、同显存预算下,,,,,job-level throughput 最高约7×。 。。。。。prefix cache 掷中率越高,,,,,OSCAR 越能使用更小的 KV footprint 提升并发吞吐,,,,,这对共享系统提醒、多轮 Agent、工具挪用循环等长前缀复用场景尤其主要。 。。。。。 图 3 是论文主效果表,,,,,包括 BF16、Saw-INT4、TurboQuant、QuaRot-INT2、Naive INT2 和 OSCAR 在四个模子、五个使命上的完整比照。 。。。。。BF16 是精度上界;;;Saw-INT4 是强 4-bit 参考,,,,,BPE 为4.25;;;TurboQuant 在这里使用无 mixed-precision ;;;さ娜3-bit K/V设置,,,,,BPE 为3.25;;;QuaRot-INT2 和 Naive INT2 是靠近 2-bit 的旋转 / 质朴基线,,,,,BPE 约2.25;;;OSCAR 则在2.28 BPE下运行。 。。。。。 这张表的重点不是简单模子,,,,,而是「低比特能不可稳固」。 。。。。。在 Qwen3-4B-Thinking 上,,,,,TurboQuant mean 为31.74,,,,,QuaRot-INT2 只有1.40,,,,,Naive INT2 为0.00;;;OSCAR 抵达71.86,,,,,距离 BF16 只差3.78,,,,,并相对 TurboQuant 提升40.1 分。 。。。。。在 Qwen3-8B 上,,,,,OSCAR mean 为69.42,,,,,距离 BF16 只差1.42,,,,,而 TurboQuant 为56.88。 。。。。。到 Qwen3-32B 和 GLM-4.7-FP8,,,,,OSCAR 基本与 BF16 持平。 。。。。;;;痪浠八担,,,,在靠近 2-bit 的 KV 预算下,,,,,OSCAR 是表中唯一能在多模子、多使命上稳固贴近 BF16 的 INT2 要领。 。。。。。 图 4 单独看 AIME25 这个高难数学推理使命,,,,,并比照 KIVI-KV2、Kitty 和 OSCAR。 。。。。。但由于 KIVI, KITTY 没有 framework 支持,,,,,无法举行 long context run,,,,,以是选取了他们要领唯一在 32K 汇报的效果 - AIME25。 。。。。。在 Qwen3-8B 上,,,,,OSCAR 以2.38 BPE抵达66.67,,,,,基本追平 BF16 的66.00,,,,,显着高于 KIVI-KV2 和 Kitty;;;在 Qwen3-32B 上,,,,,OSCAR 抵达74.00,,,,,甚至略高于 BF16 的72.59,,,,,也凌驾 Kitty 的69.26。 。。。。。这说明 OSCAR 不但是相对 TurboQuant 有优势,,,,,在已有 KV-cache 量化要领中,,,,,也能在靠近 2-bit 的预算下保住难题数学推理能力。 。。。。。 图 5 展示 100k 上下文下的系统性能。 。。。。。OSCAR 在 batch-size-1、full prefix-cache hit 的纯 decode 场景下最高约3×加速;;;在牢靠显存预算下,,,,,batch size 增大时,,,,,INT2 history 带来的 KV footprint 降低可以显著提高 job-level throughput,,,,,最高约7×。 。。。。。这说明 OSCAR 不但是精度能保住 。。。。。,,,,也能实打实降低显存带宽压力。 。。。。。 图 6 展示 prefix-cache hit ratio 对端到端 serving throughput 的影响。 。。。。。横轴是单用户吞吐,,,,,纵轴是单 GPU 吞吐;;;从 cache disabled 到 normal cache,,,,,再到靠近 100% warmup replay,,,,,吞吐前沿逐步外扩。 。。。。。OSCAR 坚持标准 paged KV /prefix cache 笼统,,,,,因此共享系统提醒、多轮 Agent、工具挪用循环等长前缀复用场景可以直接受益。 。。。。。 这些效果的一个主要寄义是,,,,,OSCAR 并没有依赖「挑选少数层保存高精度」来保住分数。 。。。。。许多低比特要领在真正安排时会借助混淆精度:第一层、最后一层或若干敏感层仍然保存较高 bit,,,,,这会让平均 bit 数上升,,,,,也会让 kernel 和 cache layout 变重大。 。。。。。OSCAR 的比照更严酷:历史 KV 主体坚持统一的 INT2 体现,,,,,只在 sink 和 recent 两个很小窗口保存 BF16。 。。。。。这样做的利益是,,,,,系统工程上更容易接入 paged cache、prefix cache 和批量调理,,,,,也更靠近真实效劳场景中的显存预算。 。。。。。 另一个值得强调的点是,,,,,OSCAR 的收益不是只在小模子或短上下文上建设。 。。。。。论文同时测试了 4B、8B、32B 以及 GLM-4.7-FP8 这样的大模子;;;既看了数学、代码、知识问答等 32K 推理天生使命,,,,,也看了 128K RULER-NIAH 长上下文检索。 。。。。。短评测里,,,,,OSCAR 能靠近 BF16;;;长上下文里,,,,,它也能让 attention 漫衍随上下文增添更稳固。 。。。。。这说明 attention-aware rotation 不是只在某个 benchmark 上调参有用,,,,,而是在缓解 KV 误差随历史长度累积这个基础问题。 。。。。。 从应用角度看,,,,,这对长上下文 Agent 特殊要害。 。。。。。真实 Agent 往往包括很长的系统提醒、工具说明、历史对话和检索内容,,,,,并且差别请求之间保存大宗共享前缀。 。。。。。若是 KV Cache 只能用 BF16 存,,,,,系统很快会被显存卡住 。。。。;;;若是直接做质朴 INT2,,,,,又可能让推理链条失真。 。。。。。OSCAR 的设计恰恰夹在两者之间:长历史用 INT2 降显存和带宽,,,,,要害 sink/recent 用 BF16 兜住稳固性,,,,,再让 prefix cache 复用共享前缀。 。。。。;;;痪浠八担,,,,它把「能压到 2-bit」和「能上线 serving」 放在统一个系统里思量。 。。。。。 TurboQuant 是很强的通用 online vector quantization 要领;;;OSCAR 针对的是 attention-aware 2-bit KV serving。 。。。。。二者不是简朴替换关系,,,,,例如OSCAR 的 最新codebase中已经在attention-aware rotation 引入了更强的 Lloyd Max Codebook,,,,,将压缩推向极致。 。。。。。OSCAR 带来了一个奇异的看法:2-bit KV Cache 要能上线,,,,,旋转不但是「有没有」,,,,,而是必需瞄准 attention,,,,,并且要有真实 serving 系统支持。 。。。。。

《网恋后被双胞胎爆烂了小说》
《网恋后被双胞胎爆烂了小说》除东京都外,日本其他地方政府也都为当地用户提供各自的电动汽车补贴。如群马县于5月初启动的补贴计划,为每辆车提供最高50万日元(约合人民币2.13万元)的补贴;福井县则为每辆车提供固定的10万日元(约合人民币4300元)补贴,18-29岁的购车者则可获得更高的40万日元(约合人民币1.7万元),居住在核电站附近的居民则可额外获得10万日元(约合人民币4300元)。《阿斯报》报道称,马竞正在为阿尔瓦雷斯可能离队做准备,并将目光转向加拉塔萨雷前锋奥斯梅恩。马竞当初花费约8150万欧元签下阿尔瓦雷斯,如果决定出售这名26岁前锋,俱乐部可以索要高于这一数字的转会费。阿尔瓦雷斯已经为马竞打进49球。《网恋后被双胞胎爆烂了小说》AAAAAAAAAAAAXX体现什么-百度在全国范围内,中国气象局已发布“风清”“风雷”“风顺”等气象人工智能模型。2025年迭代升级后,“风清”“风顺”新增多种专业气象要素,拓宽服务领域。走向全球,“妈祖(MAZU)”早期预警平台搭载各种气象人工智能模型,供40多个国家“云”上应用,巴基斯坦、埃塞俄比亚等国家已落地使用。此前,董路率领中国足球小将2014队在意大利国际青少年杯赛决赛中,击败英超劲旅埃弗顿,夺得冠军。在七场比赛里,中国足球小将打入22球仅丢2球,最终成功夺冠。
20260605 ? 《网恋后被双胞胎爆烂了小说》庄德水表示,过去的成就不能被当作“护身符”,科技进步靠的是群体力量,及时查处腐败的科研人员、专家学者,可使学术领域风清气正,优秀的人才更能脱颖而出。胡乱的见深见君恩德里克:下午好,伊戈尔先生。我们想问一下,和这26名入选球员一起经历这一切是什么感觉?你觉得自己在这个团队里的位置如何?​
《网恋后被双胞胎爆烂了小说》
? 王彦龙记者 杨学志 摄
20260605 ? 《网恋后被双胞胎爆烂了小说》马尔穆什表示:“我一直在等满18岁之后离开。当时我已经踢过一线队比赛了,但随着年龄慢慢增长,我很清楚,如果想实现自己的梦想,就必须去别的地方。我收到了沃尔夫斯堡的报价,然后去那里训练了两周。那是一次很大的转变,真的非常大。我那时候还很年轻,但没有想太多这件事会不会很难,我就是直接去了。”《jrs直播(无插件)直播nba178》温控是这款新品的一大亮点,内置智能控温方案,充电运行温度比国家标准低8摄氏度,夏天边充电边玩手机,机身也不容易发烫,低温环境下充电稳定性更好。
《网恋后被双胞胎爆烂了小说》
? 魏华记者 胡长燕 摄
? 我一直都喜欢挑战,而这次就是一个巨大的挑战。至于下一个挑战会在哪里出现,不管是在俱乐部还是国家队,只要有值得我们投入的挑战,而且别人也希望我们参与其中,那么我们就会考虑。未来会把我们带到哪里,拭目以待吧,我们还年轻。《大人的防具店第一季动漫》
扫一扫在手机翻开目今页
【网站地图】【sitemap】