888集团

《网恋后被双胞胎爆烂了小说》逾越TurboQuant，，，，，长上下文推理真2-bit KV Quantization算法问世

2026-06-05 15:31:53 泉源：吕宝臣

字号：默认大超大 | 打印 |

本文作者 Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist，，，，，悉尼大学博士，，，，，研究偏向为高效机械学习系统，，，，，偏向笼罩模子训推算法与系统协同设计，，，，，LLM 压缩与量化。。。。。。团队成员均来自 TogetherAI，，，，，悉尼大学以及伊利诺伊大学厄巴纳 — 香槟分校。。。。。。长上下文模子越来越强，，，，，但效劳时的瓶颈往往不是算力，，，，，而是 KV Cache：每天生一个 token，，，，，都要从显存中读取越来越长的历史 key，，，，，value。。。。。。上下文越长、batch 越大，，，，，KV Cache 越吃显存，，，，，也越吃带宽。。。。。。把历史 KV 压到 2-bit，，，，，理论上可以让历史段显存镌汰约8 倍；；；但真正难的是，，，，，压完之后推理能力不可崩，，，，，系统也必需能在真实 serving 框架里跑起来。。。。。。为什么 2-bit KV Cache 这么难？？？？INT2 只有 4 个量化品级，，，，，而 KV activation 中经常有少数幅值极大的 outlier channel。。。。。。若是这些 outlier 主导量化标准，，，，，大大都正常值会被挤到很少的有用品级里，，，，，注重力漫衍很快漂移。。。。。。通俗 Hadamard 旋转能把 outlier 摊平，，，，，但它不知道模子在 attention 里真正读哪些偏向。。。。。。OSCAR 的焦点就是把旋转目的从「重修原始 K/V 向量」改成「保存 attention 消耗 KV 的方法」。。。。。。相比之前量化的事情，，，，，好比 TurboQuant 压缩的是向量，，，，，但忽略了真正影响模子的是 attention 的质量，，，，，OSCAR 保存的是 attention 真正会读的偏向。。。。。。质朴 INT2 和全模子层的 3-bit K/V TurboQuant 都会在难题推理使命上显着掉分；；；OSCAR 在约2.28 effective bits per KV element下仍能靠近 BF16，，，，，并在 Qwen3-4B-Thinking 上相对 3-bit K/V TurboQuant 最高提升40.1 分。。。。。。图 1 比照了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化误差撒播链路上的差别。。。。。。要害点是，，，，，原始 K/V 的重修误差并不可完全诠释模子最终体现；；；真正影响推理质量的是 attention-score KL、attention-block output MSE 以及后续 hidden-state error。。。。。。OSCAR 的优势不但是让向量数值更平滑，，，，，而是把量化误差压到 attention 不敏感的偏向上。。。。。。详细来说，，，，，对 key 来说，，，，，量化误差会进入 attention logits，，，，，也就是 QK?，，，，，因此 OSCAR 用 query covariance（Q?Q）结构 key 的旋转目的；；；对 value 来说，，，，，误差经由注重力权重进入输出，，，，，因此 OSCAR 使用 score-weighted value covariance（V?S?SV）。。。。。。离线校准阶段，，，，，OSCAR 从少量校准样本中预计这些 attention-aware covariance，，，，，为每层、每个 head 天生牢靠旋转和 clipping 阈值。。。。。。最终旋转写作R = U?Hadamard?bit-reversal：U 瞄准 attention 相关偏向，，，，，Hadamard 疏散 outlier，，，，，bit-reversal 平衡 INT2 分组，，，，，阻止某个 group 被少数通道支配。。。。。。其中 sink token 和 recent window 坚持 BF16，，，，，用来；；； attention sink 与短期局部上下文；；；中心最长的历史段存成旋转后的 INT2。。。。。。新 token 先写入 recent window，，，，，随着解码推进，，，，，最老的 recent token 再由融合 Triton kernel 执行 rotate /clip/quantize/pack，，，，，并 demote 到 INT2 history。。。。。。每 4 个 2-bit 值打包进 1 个 byte。。。。。。decode 阶段，，，，，OSCAR 在 GPU 上把缓存分成 BF16 段和 INT2 段：INT2 kernel 认真 unpack、scale/zero point 还原和浮点累加，，，，，BF16 kernel 处置惩罚 sink/recent，，，，，最后用 online softmax merge 合并效果。。。。。。它同时兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline，，，，，因此可以直接用于长上下文 workload，，，，，而不是停留在论文图内外。。。。。。图 2 展示 OSCAR 从离线校准到在线 serving 的完整路径。。。。。。左侧是离线阶段：OSCAR 从少量校准样本中预计 attention-aware rotation 和 clipping threshold，，，，，让 KV activation 在进入 INT2 前变得更适合量化。。。。。。右侧是在线阶段：sink/recent token 继续坚持 BF16，，，，，中心最长的 history KV 进入旋转后的 INT2 cache，，，，，并在 SGLang paged KV 中完成真实 serving。。。。。。因此 OSCAR 不是简单量化技巧，，，，，而是一整套 2-bit KV Cache pipeline。。。。。。 OSCAR 在2.28 BPE下，，，，，Qwen3-4B-Thinking 距 BF16 仅3.78分，，，，，Qwen3-8B 距 BF16 仅1.42 分，，，，，Qwen3-32B 与 GLM-4.7-FP8 基本与 BF16 持平。。。。。。相比之下，，，，，QuaRot-INT2 和 naive INT2 在这些 reasoning /coding 使命上大多直接瓦解；；；TurboQuant 在全层 3-bit K/V、无 mixed-precision ；；；さ墓柚孟拢，，，，也在小模子推理使命上掉明确显。。。。。。 OSCAR还在128K长上下文设置下对中 / 大规模模子做了 RULER-NIAH 测试：OSCAR 在 Qwen3-8B 和 GLM-4.7-FP8 上都坚持了显着更稳固的检索性能，，，，，说明这种 attention-aware 旋转不但能撑住短评测，，，，，也能对抗超长历史中 KV 误差的累积。。。。。；；；痪浠八担，，，，OSCAR 是少数能在真近 2-bit 设置下仍坚持现代 reasoning model 质量的要领。。。。。。系统收益也很是直接：相对 BF16 history storage，，，，，OSCAR 可镌汰约8×KV Cache memory；；；在 100k context、batch-size-1、full prefix-cache hit 设置下，，，，，decode 最高约3×加速；；；在大 batch、同显存预算下，，，，，job-level throughput 最高约7×。。。。。。prefix cache 掷中率越高，，，，，OSCAR 越能使用更小的 KV footprint 提升并发吞吐，，，，，这对共享系统提醒、多轮 Agent、工具挪用循环等长前缀复用场景尤其主要。。。。。。图 3 是论文主效果表，，，，，包括 BF16、Saw-INT4、TurboQuant、QuaRot-INT2、Naive INT2 和 OSCAR 在四个模子、五个使命上的完整比照。。。。。。BF16 是精度上界；；；Saw-INT4 是强 4-bit 参考，，，，，BPE 为4.25；；；TurboQuant 在这里使用无 mixed-precision ；；；さ娜3-bit K/V设置，，，，，BPE 为3.25；；；QuaRot-INT2 和 Naive INT2 是靠近 2-bit 的旋转 / 质朴基线，，，，，BPE 约2.25；；；OSCAR 则在2.28 BPE下运行。。。。。。这张表的重点不是简单模子，，，，，而是「低比特能不可稳固」。。。。。。在 Qwen3-4B-Thinking 上，，，，，TurboQuant mean 为31.74，，，，，QuaRot-INT2 只有1.40，，，，，Naive INT2 为0.00；；；OSCAR 抵达71.86，，，，，距离 BF16 只差3.78，，，，，并相对 TurboQuant 提升40.1 分。。。。。。在 Qwen3-8B 上，，，，，OSCAR mean 为69.42，，，，，距离 BF16 只差1.42，，，，，而 TurboQuant 为56.88。。。。。。到 Qwen3-32B 和 GLM-4.7-FP8，，，，，OSCAR 基本与 BF16 持平。。。。。；；；痪浠八担，，，，在靠近 2-bit 的 KV 预算下，，，，，OSCAR 是表中唯一能在多模子、多使命上稳固贴近 BF16 的 INT2 要领。。。。。。图 4 单独看 AIME25 这个高难数学推理使命，，，，，并比照 KIVI-KV2、Kitty 和 OSCAR。。。。。。但由于 KIVI, KITTY 没有 framework 支持，，，，，无法举行 long context run，，，，，以是选取了他们要领唯一在 32K 汇报的效果 - AIME25。。。。。。在 Qwen3-8B 上，，，，，OSCAR 以2.38 BPE抵达66.67，，，，，基本追平 BF16 的66.00，，，，，显着高于 KIVI-KV2 和 Kitty；；；在 Qwen3-32B 上，，，，，OSCAR 抵达74.00，，，，，甚至略高于 BF16 的72.59，，，，，也凌驾 Kitty 的69.26。。。。。。这说明 OSCAR 不但是相对 TurboQuant 有优势，，，，，在已有 KV-cache 量化要领中，，，，，也能在靠近 2-bit 的预算下保住难题数学推理能力。。。。。。图 5 展示 100k 上下文下的系统性能。。。。。。OSCAR 在 batch-size-1、full prefix-cache hit 的纯 decode 场景下最高约3×加速；；；在牢靠显存预算下，，，，，batch size 增大时，，，，，INT2 history 带来的 KV footprint 降低可以显著提高 job-level throughput，，，，，最高约7×。。。。。。这说明 OSCAR 不但是精度能保住。。。。。，，，，也能实打实降低显存带宽压力。。。。。。图 6 展示 prefix-cache hit ratio 对端到端 serving throughput 的影响。。。。。。横轴是单用户吞吐，，，，，纵轴是单 GPU 吞吐；；；从 cache disabled 到 normal cache，，，，，再到靠近 100% warmup replay，，，，，吞吐前沿逐步外扩。。。。。。OSCAR 坚持标准 paged KV /prefix cache 笼统，，，，，因此共享系统提醒、多轮 Agent、工具挪用循环等长前缀复用场景可以直接受益。。。。。。这些效果的一个主要寄义是，，，，，OSCAR 并没有依赖「挑选少数层保存高精度」来保住分数。。。。。。许多低比特要领在真正安排时会借助混淆精度：第一层、最后一层或若干敏感层仍然保存较高 bit，，，，，这会让平均 bit 数上升，，，，，也会让 kernel 和 cache layout 变重大。。。。。。OSCAR 的比照更严酷：历史 KV 主体坚持统一的 INT2 体现，，，，，只在 sink 和 recent 两个很小窗口保存 BF16。。。。。。这样做的利益是，，，，，系统工程上更容易接入 paged cache、prefix cache 和批量调理，，，，，也更靠近真实效劳场景中的显存预算。。。。。。另一个值得强调的点是，，，，，OSCAR 的收益不是只在小模子或短上下文上建设。。。。。。论文同时测试了 4B、8B、32B 以及 GLM-4.7-FP8 这样的大模子；；；既看了数学、代码、知识问答等 32K 推理天生使命，，，，，也看了 128K RULER-NIAH 长上下文检索。。。。。。短评测里，，，，，OSCAR 能靠近 BF16；；；长上下文里，，，，，它也能让 attention 漫衍随上下文增添更稳固。。。。。。这说明 attention-aware rotation 不是只在某个 benchmark 上调参有用，，，，，而是在缓解 KV 误差随历史长度累积这个基础问题。。。。。。从应用角度看，，，，，这对长上下文 Agent 特殊要害。。。。。。真实 Agent 往往包括很长的系统提醒、工具说明、历史对话和检索内容，，，，，并且差别请求之间保存大宗共享前缀。。。。。。若是 KV Cache 只能用 BF16 存，，，，，系统很快会被显存卡住。。。。；；；若是直接做质朴 INT2，，，，，又可能让推理链条失真。。。。。。OSCAR 的设计恰恰夹在两者之间：长历史用 INT2 降显存和带宽，，，，，要害 sink/recent 用 BF16 兜住稳固性，，，，，再让 prefix cache 复用共享前缀。。。。。；；；痪浠八担，，，，它把「能压到 2-bit」和「能上线 serving」放在统一个系统里思量。。。。。。 TurboQuant 是很强的通用 online vector quantization 要领；；；OSCAR 针对的是 attention-aware 2-bit KV serving。。。。。。二者不是简朴替换关系，，，，，例如OSCAR 的最新codebase中已经在attention-aware rotation 引入了更强的 Lloyd Max Codebook，，，，，将压缩推向极致。。。。。。OSCAR 带来了一个奇异的看法：2-bit KV Cache 要能上线，，，，，旋转不但是「有没有」，，，，，而是必需瞄准 attention，，，，，并且要有真实 serving 系统支持。。。。。。

《网恋后被双胞胎爆烂了小说》

                                《网恋后被双胞胎爆烂了小说》除东京都外，日本其他地方政府也都为当地用户提供各自的电动汽车补贴。如群马县于5月初启动的补贴计划，为每辆车提供最高50万日元（约合人民币2.13万元）的补贴；福井县则为每辆车提供固定的10万日元（约合人民币4300元）补贴，18-29岁的购车者则可获得更高的40万日元（约合人民币1.7万元），居住在核电站附近的居民则可额外获得10万日元（约合人民币4300元）。《阿斯报》报道称，马竞正在为阿尔瓦雷斯可能离队做准备，并将目光转向加拉塔萨雷前锋奥斯梅恩。马竞当初花费约8150万欧元签下阿尔瓦雷斯，如果决定出售这名26岁前锋，俱乐部可以索要高于这一数字的转会费。阿尔瓦雷斯已经为马竞打进49球。《网恋后被双胞胎爆烂了小说》AAAAAAAAAAAAXX体现什么-百度在全国范围内，中国气象局已发布“风清”“风雷”“风顺”等气象人工智能模型。2025年迭代升级后，“风清”“风顺”新增多种专业气象要素，拓宽服务领域。走向全球，“妈祖（MAZU）”早期预警平台搭载各种气象人工智能模型，供40多个国家“云”上应用，巴基斯坦、埃塞俄比亚等国家已落地使用。此前，董路率领中国足球小将2014队在意大利国际青少年杯赛决赛中，击败英超劲旅埃弗顿，夺得冠军。在七场比赛里，中国足球小将打入22球仅丢2球，最终成功夺冠。
                            

                                20260605 ? 《网恋后被双胞胎爆烂了小说》庄德水表示，过去的成就不能被当作“护身符”，科技进步靠的是群体力量，及时查处腐败的科研人员、专家学者，可使学术领域风清气正，优秀的人才更能脱颖而出。胡乱的见深见君恩德里克：下午好，伊戈尔先生。我们想问一下，和这26名入选球员一起经历这一切是什么感觉？你觉得自己在这个团队里的位置如何？​
                            

《网恋后被双胞胎爆烂了小说》

? 王彦龙记者杨学志摄

                                20260605 ? 《网恋后被双胞胎爆烂了小说》马尔穆什表示：“我一直在等满18岁之后离开。当时我已经踢过一线队比赛了，但随着年龄慢慢增长，我很清楚，如果想实现自己的梦想，就必须去别的地方。我收到了沃尔夫斯堡的报价，然后去那里训练了两周。那是一次很大的转变，真的非常大。我那时候还很年轻，但没有想太多这件事会不会很难，我就是直接去了。”《jrs直播(无插件)直播nba178》温控是这款新品的一大亮点，内置智能控温方案，充电运行温度比国家标准低8摄氏度，夏天边充电边玩手机，机身也不容易发烫，低温环境下充电稳定性更好。
                            

《网恋后被双胞胎爆烂了小说》

? 魏华记者胡长燕摄

                            ? 我一直都喜欢挑战，而这次就是一个巨大的挑战。至于下一个挑战会在哪里出现，不管是在俱乐部还是国家队，只要有值得我们投入的挑战，而且别人也希望我们参与其中，那么我们就会考虑。未来会把我们带到哪里，拭目以待吧，我们还年轻。《大人的防具店第一季动漫》
                        

【我要推荐】更多推荐：莱万特宣布2026/2027赛季季票推广活动

扫一扫在手机翻开目今页

链接：
天下人大
|
天下政协
|
国家监察委员会
|
最高人民法院
|
最高人民审查院

国务院部分网站
|
地方政府网站
|
驻港澳机构网站
|
驻外机构

中国政府网 | 关于本网 | 网站声明 | 联系888集团 | 网站纠错

主理单位：《网恋后被双胞胎爆烂了小说》　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452　京ICP备05070218号　京公网安备11010202000001号

welcometo接待光临888集团(中国)有限公司

国务院客户端

welcometo接待光临888集团(中国)有限公司

国务院客户端小程序

中国政府网微博、微信

主理单位：中国政府网　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

【网站地图】【sitemap】