这项由SambaNova Systems(一家专注于AI基础设施的科技公司)研究团队完成的研究,,,,,以预印本形式宣布于2026年5月31日,,,,,编号为arXiv:2606.01336,,,,,论文问题为《LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning》,,,,,有兴趣深入相识的读者可以通过上述编号盘问完整论文。。。。
假设你是一位状师助理,,,,,老板给了你一份两百页的条约,,,,,要你在五分钟内找出其中一处要害的误差条款。。。。这件事难在那里???难在内容太多,,,,,有用信息太少,,,,,大宗篇幅是无关紧要的名堂条款。。。。你得在茫茫文字中,,,,,像大海捞针一样找到那几行要害文字。。。。
当今的大型语言模子(简称"大模子",,,,,就是ChatGPT、DeepSeek这类AI)面临的逆境与此惊人地相似。。。。随着人们越来越多地将超长文档——几十万字的代码库、数百页的执法文书、一连几小时的对话纪录——直接丢给AI处置惩罚,,,,,AI所需要"阅读"的内容量早已突破了十万甚至二十万个"词语单位"(专业上称为"token",,,,,可以简陋明确为AI处置惩罚文字的基本单位)。。。。
这种超长输入对AI系统来说,,,,,价钱极其高昂。。。。每多处置惩罚一个词,,,,,盘算机就要多消耗一点内存和算力,,,,,而这个消耗不是线性增添,,,,,是成倍增添的。。。。处置惩罚十万词的本钱,,,,,远不止是处置惩罚一万词的十倍那么简朴——就似乎一锅饭能养活十小我私家,,,,,但要养活一百小我私家,,,,,你需要的远不止是十口锅,,,,,尚有十倍的燃气、十倍的厨师、十倍的餐具。。。。
SambaNova Systems的研究团队正是针对这一"大模子阅读焦虑"问题,,,,,提出了一套名为LongAttnComp的解决计划。。。。它的焦点思绪可以用一个词归纳综合:压缩。。。。但这可不是简朴地把文章截短,,,,,而是像一位履历富厚的文件助理,,,,,先快速浏览全文,,,,,把真正有用的段落挑出来,,,,,再交给老板细读——既节约了老板的时间,,,,,又不丧失任何要害信息。。。。
既然文章太长,,,,,最直观的步伐就是截断——保存前面一部分,,,,,把凌驾长度限制的内容直接扔掉。。。。现实上,,,,,许多AI系统今天仍在这样做,,,,,这种要领叫"中心截断"(middle-truncation)。。。。
但这个要领有一个致命问题:要害信息可能恰恰藏在被截掉的那部分里。。。。研究领域有一个著名的征象叫"迷失在中心"——研究者发明,,,,,当一段文字被安排在超长文档的中心位置时,,,,,AI往往会忽略它,,,,,纵然那段文字很是主要。。。。这就好比一本两百页的书,,,,,第一章和最后一章总是被读者记着,,,,,但第八十七页的内容,,,,,大大都人读完之后基础想不起来。。。。
正由于简朴截断会丧失约息,,,,,研究者们最先探索"上下文压缩"这条路。。。。上下文压缩的思绪是:与其截断,,,,,不如筛选。。。。把整篇文档扫一遍,,,,,只保存与目今问题相关的部分,,,,,去掉那些与问题无关的内容。。。。
现在已有的压缩计划大致分为两类。。。。第一类叫"抽取式压缩",,,,,就像用荧光笔在原文上标记,,,,,只保存被标记的部分。。。。第二类叫"天生式压缩",,,,,就像请人把原文归纳综合成摘要,,,,,用新的文字重新表达原文意思。。。。两类要领各有优劣,,,,,但都面临一个配合难题:怎么知道哪些内容是"有用的"???
此前有一个叫Speculative Prefill(投契式预填充)的计划,,,,,用一个轻量级的"底稿模子"先快速扫描文档,,,,,凭证它对文字主要性的判断来压缩内容,,,,,完全不需要专门训练,,,,,开箱即用。。。。这个计划在许多使命上体现不错,,,,,但在"代码调试"这类需要深度明确的长文本使命上,,,,,体现就差强人意了。。。。另一个叫AttnComp的计划则选择专门训练一个评分器,,,,,效果有所提升,,,,,但它只在随笔本(约一万两千个词)上做过测试,,,,,训练数据也只用了一个泉源,,,,,适用规模相当有限。。。。
你走进图书馆,,,,,提出一个问题:"条约第三方责任条款有没有误差???"图书馆员没有把整个馆藏都搬给你,,,,,而是依附多年积累的检索履历,,,,,快速扫视书架,,,,,挑出三四本最相关的书,,,,,按原来的编号顺序排好,,,,,放在你眼前。。。。你只需要读这几本书,,,,,就能找到谜底。。。。
第一步叫"评分"。。。。整个超长文档被切割成牢靠巨细的"文字块"(每块包括若干个词),,,,,然后一个经由专门训练的"评分器"对每个文字块打分,,,,,分数代表该文字块与你提出的问题的相关水平。。。。这个评分器实质上是一个经由特殊刷新的AI模子:它的主体(Llama-3.1-8B这个大模子的前13层)被"冻结"起来,,,,,不加入训练,,,,,只认真明确文字;;;;;;在它上面特殊加了一个可训练的"交织注重力层"(可以明确为专门盘算"问题"和"文字块"之间匹配水平的模??椋,,,,,这才是真正被训练的部分。。。。整个评分器只有约0.5%的参数加入训练,,,,,很是轻量。。。。
第二步叫"筛选"。。。。评分完成后,,,,,所有文字块按分数从高到低排列,,,,,然后从最高脱离始依次选取,,,,,直到知足阻止条件为止。。。。LongAttnComp在这里做了一个主要刷新:引入了"token预算"机制。。。。简朴说,,,,,就是设定一个保存内容的字数上限(好比16000个词),,,,,选取文字块直到凑够这个上限,,,,,或者累计分数凌驾某个阈值(p=0.95)为止。。。。这比原版AttnComp的计划更稳固,,,,,不会由于分数盘算的小误差导致保存内容过少。。。。
第三步叫"天生"。。。。筛选完成后,,,,,被保存的文字块会凭证它们在原文中的先后顺序重新排列好(而不是按分数崎岖排列),,,,,形成一份"压缩版文档",,,,,交给真正认真回覆问题的大模子(好比DeepSeek、GPT等)。。。。目的大模子拿到这份压缩版文档后,,,,,只需要处置惩罚一万六千词而非十万词以上的内容,,,,,既节约了大宗盘算资源,,,,,又由于保存了最要害的段落,,,,,答题准确率得以维持甚至提升。。。。
第一项刷新是"分块方法"的改变。。。。原版AttnComp把每一篇文档看成一个整体来评分——但在真实天下里,,,,,许多长文本并不是由一篇篇自力文档拼起来的,,,,,而是一整段一连的代码、一整份条约、一整篇长报告。。。。对这类内容,,,,,就没有"文档"可言了。。。。LongAttnComp的解决计划是放弃"文档级别"的评分,,,,,改为牢靠巨细的"词块级别"评分:把整篇文章切成牢靠长度的小块(好比每块1024个词),,,,,对每块划分打分。。。。这不但能处置惩罚没有清晰文档界线的长文本,,,,,还让"块的巨细"成为一个可调理的参数——针对差别使命,,,,,可以选择差别的块巨细,,,,,以抵达最优效果。。。。
第二项刷新是"筛选机制"的升级。。。。上文已提到"token预算"的引入,,,,,这里增补一个更细节的设计。。。。在某些使命中,,,,,有用的信息很是集中,,,,,只需要很少的块就能笼罩所有要害内容;;;;;;但在另一些使命中,,,,,有用的信息疏散在全文各处,,,,,若是过早阻止筛选,,,,,就会遗漏主要证据。。。。为了应对后一种情形,,,,,LongAttnComp还支持一种"只看预算"的模式:完全不管累计分数是否已经够高,,,,,只管一直选取评分最高的块,,,,,直到凑满预算上限为止。。。。这两种模式各有适用场景,,,,,研究团队在差别使命上划分测试了哪种模式更好。。。。
第三项刷新是"位置还原"。。。。按分数排序筛选出来的块,,,,,并不是随机排列的,,,,,但它们的先后顺序被打乱了。。。。读者都知道,,,,,一篇文章的段落顺序是有意义的,,,,,后面的段落往往依赖前面的铺垫。。。。LongAttnComp在把筛选效果交给目的模子之前,,,,,会把各个块恢复到它们在原文中的顺序,,,,,坚持文章的逻辑连贯性。。。。
第四项刷新是"问题剖析器"的设计。。。。评分器需要知道"你的问题是什么",,,,,才华盘算文字块与问题的相关水平。。。。原版AttnComp假设问题总是泛起在牢靠位置,,,,,这在名堂整齐的问答数据集上没问题,,,,,但在真实应用中,,,,,问题可能藏在提醒词的任何位置,,,,,名堂千变万化。。。。LongAttnComp引入了一个简朴但适用的计划:直接取输入内容的最后若干个词(好比最后128个词)作为"问题",,,,,不管名堂怎样。。。。实验证实,,,,,这个粗暴但适用的计划,,,,,与准确剖析问题界线的计划相比,,,,,准确率损失不到1个百分点,,,,,大大降低了安排难度。。。。
评分器的能力,,,,,很洪流平上取决于它被怎样训练。。。。SambaNova团队为LongAttnComp设计了一套"两阶段训练计划",,,,,可以用作育一名万能型研究助理的历程来明确。。。。
第一阶段,,,,,打基础。。。。研究团队为评分器准备了3.2万条训练样本,,,,,泉源是SQuAD(一个经典的英文问答数据集,,,,,每个问题只需要找到一篇文章中的一个事实)和HotpotQA(需要同时参考两篇文章才华回覆的多跳问题数据集)。。。。训练样本的结构方法模拟了一种叫"NIAH"("大海捞针")的经典测试:把真正有用的段落藏进一堆无关文章中,,,,,让评分器学会把"针"从"草堆"里找出来。。。。训练完成后,,,,,评分器在代码调试和单针、多键检索使命上体现很好,,,,,但在需要跨多篇文档综合推理的使命上依然体现欠佳。。。。
第二阶段,,,,,拓能力。。。;;;;;;诘谝唤锥蔚哪W蛹绦盗,,,,,新加入了两类更难的数据:MuSiQue(需要2到4篇文章的多跳推理数据集)和2WikiMultiHopQA(跨维基百科多文章推理)。。。。同时,,,,,第一阶段的数据也按比例混入,,,,,避免模子"遗忘"之前学到的基础能力(这种要领叫"回放",,,,,就像温习旧知识避免遗忘)。。。。
在第二阶段的训练中,,,,,团队还测试了一个有趣的设计选择:关于MuSiQue的多跳问题,,,,,训练时是否在问题里特殊附上问题的剖析办法???好比,,,,,问题自己是"谁是X国总统的母亲的家乡市长???",,,,,附加版本则会特殊提醒"第一步:X国总统是谁???第二步:他的母亲是谁???第三步:她的家乡在那里???第四步:那里的市长是谁???"。。。。带剖析办法的版本叫"subq",,,,,不带的叫"nosubq"。。。。两个版本都被训练出来并划分评测,,,,,研究效果批注两者各有输赢,,,,,没有绝对的赢家,,,,,但在某些使命上subq版本有一定优势,,,,,这个发明被研究团队视为一个值得未来深入探索的设计选项。。。。
研究团队在三个主流测试场景下评估了LongAttnComp的体现,,,,,目的模子涵盖了来自三个差别家族的四款主流大模子:DeepSeek-R1-0528、DeepSeek-V3.1、MiniMax-M2.5和GPT-OSS-120B。。。。压缩器使用Llama-3.1-8B-Instruct的前13层作为主干,,,,,训练完成后不针对任何目的模子做特殊调解,,,,,直接通用。。。。
在最主要的测试场景——InfiniteBench的代码调试使命上,,,,,测试文档平均长度约11.5万词,,,,,部分凌驾20万词。。。。不做压缩直接送入DeepSeek-R1-0528时,,,,,准确率是74.37%。。。。Speculative Prefill压缩后,,,,,准确率跌到62.44%,,,,,损失近12个百分点。。。。LongAttnComp第一阶段模子在压缩至约1.6万词的条件下,,,,,反而把准确率推到了75.38%,,,,,比不压缩还要横跨整整一个百分点。。。。第二阶段的subq版本进一步提升到76.90%,,,,,是所有计划中最高的。。。。
这个效果乍看令人含混——压缩后反而比不压缩更准确,,,,,缘故原由是什么???原来,,,,,超长文档中保存大宗无关代码和滋扰信息,,,,,连大模子也会被这些噪音疏散注重力。。。。LongAttnComp把最要害的代码段提炼出来后,,,,,大模子反而能更专注地剖析真正有问题的那段代码,,,,,就似乎把一份杂乱无章的文件整理成一份清晰的摘要,,,,,反而更容易找到要害信息。。。。
跨模子的泛化能力测试效果同样令人印象深刻。。。。在DeepSeek-V3.1上,,,,,LongAttnComp第一阶段准确率达65.73%,,,,,相比不压缩的67.51%差别仅约2个百分点,,,,,而Speculative Prefill则跌到59.14%。。。。在MiniMax-M2.5上,,,,,不压缩准确率83.76%,,,,,LongAttnComp第一阶段达81.22%,,,,,Speculative Prefill则只有57.10%,,,,,差别多达26个百分点。。。。在GPT-OSS-120B上,,,,,不压缩86.00%,,,,,LongAttnComp第一阶段82.99%,,,,,Speculative Prefill仅52.28%,,,,,差别凌驾30个百分点。。。。这意味着LongAttnComp这个用Llama模子训练出来的压缩器,,,,,能够跨家族地适配完全差别架构的大模子,,,,,而无需为每个目的模子单独重新训练。。。。
在更普遍的多文档推理测试场景LongBench v2上,,,,,情形更能体现两阶段训练的价值。。。。第一阶段模子的总体准确率只有41.7%,,,,,不但低于不压缩的56.7%,,,,,甚至低于Speculative Prefill的46.3%。。。。但第二阶段训练后,,,,,subq版本的总体准确率回升到48.9%,,,,,nosubq版本抵达49.7%,,,,,双双凌驾Speculative Prefill,,,,,与截断版全文(51.1%)的差别缩小到1到2个百分点以内。。。。其中,,,,,subq版本在"长文档"分类下的提升尤为显眼,,,,,从41.7%跃升至53.7%,,,,,提升幅度达12个百分点。。。。
在合成检索测试集RULER上,,,,,LongAttnComp在"单针检索"使命(文档中藏着一条要害信息)上体现险些完善:原始测试集中全文本准确率仅57.4%(说明AI确实会"迷失在中心"),,,,,LongAttnComp第一阶段模子则以极小的压缩文本(平均约2000词,,,,,远低于16000词的预算上限)抵达了99.2%的准确率。。。。在需要同时找到漫衍在多处的多条信息时,,,,,LongAttnComp也优于不压缩计划,,,,,只在信息极端疏散的"多值"和"多盘问"子使命上略有缺乏,,,,,与LongBench v2的纪律一致。。。。
除了准确率,,,,,效率也是这套计划的主要优势。。。。Speculative Prefill曾有报告显示,,,,,将12.8万词的文档压缩至1.6万词,,,,,首个词的天生时间(TTFT,,,,,time-to-first-token,,,,,类比于你点菜后品级一道菜上桌的时间)从46秒降至2.5秒,,,,,足足快了18倍多。。。。
LongAttnComp的压缩器只用了Llama模子前13层(共32层),,,,,相当于用约40%的模子做评分事情。。。。由此推算,,,,,LongAttnComp的压缩开销约为Speculative Prefill的三分之一,,,,,而在准确率上还更胜一筹。。。;;;;;;痪浠八,,,,,这套计划不但让大模子回覆得更准,,,,,还让整个系统跑得更快、破费更少。。。。
训练数据的局限是最突出的问题。。。。无论是第一阶段照旧第二阶段,,,,,训练数据都来自合成结构的"大海捞针"名堂,,,,,把真实问答数据集的段落藏进随机填充的滋扰内容里。。。。真实天下的长文档往往比这重大得多,,,,,证据之间的关联更迂回,,,,,推理链条更多跳,,,,,这正是LongBench v2依然留有差别的基础缘故原由。。。。团队以为,,,,,引入更多自然收罗的长文本训练数据是下一步的主要使命。。。。
超参数对使命的依赖性也是一个现实使用中的贫困。。。。??榈木尴福。。。ù氲魇杂1024词/块,,,,,合成检索用256词/块,,,,,多文档推理用32词/块)、问题窗口巨细!。。128到512词不等)、筛选模式(累计分数照旧纯预算)都需要凭证使命类型调解。。。。在不知道使命类型的情形下,,,,,一套牢靠设置会让某些使命的体现大打折扣。。。。研究团队以为,,,,,设计一个能自动感知使命类型并调解参数的自顺应机制,,,,,是值得深入研究的偏向。。。。
别的,,,,,本研究所有实验都使用统一个压缩器主干(Llama-3.1-8B-Instruct),,,,,更小或更大的主干模子是否同样适用,,,,,尚未测试。。。。所有目的模子也都通过SambaNova云端API挪用,,,,,没有直接的硬件效率丈量数据,,,,,真实的端到端速率提升只能依据理论估算。。。。
说究竟,,,,,LongAttnComp做的事情,,,,,和一位优异的阅读助理没有太大区别:在你启齿问问题之前,,,,,先把那本厚厚的报告快速翻一遍,,,,,标出最值得你关注的段落,,,,,按原来的顺序整齐摆好,,,,,再递到你手边。。。。只不过,,,,,这位助理受过专门训练,,,,,速率极快,,,,,并且无论你问的是代码误差、历史事务照旧多文档综合剖析,,,,,都能胜任。。。。
这项研究对通俗人的意义在于:随着AI工具越来越多地进入一样平常事情,,,,,处置惩罚速率和本钱将直接影响使用体验。。。。LongAttnComp这类压缩手艺,,,,,是让AI工具从"无意用用"酿成"随时可用"的要害一环。。。。当一个执法AI助理能在几秒钟内从一份两百页条约中找到要害条款,,,,,而不是花几十秒"逐步读完";;;;;;当一个代码审查AI能快速定位一个十万行项目中的bug,,,,,而不是被无关代码淹没——这些都离不开高效可靠的上下文压缩手艺在背后支持。。。。
对这个领域感兴趣的读者,,,,,可以继续思索这样一个问题:压缩自己是否也会损失约息???研究团队的数据批注,,,,,在某些使命上压缩反而提升了准确率,,,,,这说明"更少但更精准"有时间胜过"更多但充满噪音"。。。。这个发明对人类自己的阅读和学习方法,,,,,是否也有一些启发???想深入相识完整手艺细节的读者,,,,,可通过arXiv:2606.01336查阅原论文。。。。
A:LongAttnComp不是写摘要,,,,,而是"抽取式压缩"——它直接从原文中挑选最相关的段落,,,,,坚持原始文字稳固,,,,,按原来的顺序拼在一起。。。。摘要是用新的语言重新归纳综合,,,,,可能会引入误差;;;;;;LongAttnComp保存的是原文片断,,,,,目的大模子读到的是真实的原始内容,,,,,不保存摘要带来的二次明确误差。。。。
A:缘故原由在于超长文档中保存大宗与问题无关的滋扰内容,,,,,大模子在处置惩罚时同样会被这些内容疏散注重力,,,,,导致对要害信息的关注度下降(研究者称之为"迷失在中心"征象)。。。。LongAttnComp把无关内容过滤掉后,,,,,目的模子能更专注地处置惩罚真正相关的段落,,,,,反而做出更准确的判断。。。。
A:基本可以,,,,,这正是这项研究的亮点之一。。。。训练时使用的是Llama-3.1-8B模子,,,,,但实验证实,,,,,不经由任何针对性调解,,,,,统一个压缩器就能直接用于DeepSeek、MiniMax、GPT-OSS等完全差别家族的大模子,,,,,准确率损失很小。。。。这意味着压缩器训练一次就能普遍适配多种目的模子,,,,,大大降低了现实安排本钱。。。。
穿越兽世巨棒凶猛NPC龙族Emergence World 的这场实验就验证了,当下的大模型,在面临长期运转和利益冲突时,判断和决策会被生存压力污染,进而在固定的规则中寻找漏洞。为了完成系统设定的核心指令(比如赚能量),它们会不择手段。在健身辅导方面,苹果 watchOS 27 同步升级 Workout Buddy(运动伙伴),新增西班牙语支持,并可依据用户过往健身历史给出更个性化的激励与反馈。此外用户在锻炼时使用 Workout Buddy 不再需要随身携带 iPhone。穿越兽世巨棒凶猛NPC龙族《三人成行(3)鸣銮笔趣阁》根据《马卡报》的说法,双方的表述其实各有部分属实。皇马确实曾主动联系马竞,表达对这位阿根廷前锋的兴趣,并询问球员情况。不过,马竞从一开始就没有给谈判留下空间,明确表示不会出售胡利安,因此双方并未进一步讨论转会细节。AI大模型竞争,表面上看是GPU、网络、算法和数据的竞争。穿透到底层,则是电力供应能力、能源成本和电力质量的竞争。智算中心的负荷具有高度集中、高功率密度、连续运行、波动冲击强等特征,已经远远超出传统互联网数据中心的能耗曲线。
20260610 ? 穿越兽世巨棒凶猛NPC龙族阿韦洛亚本赛季原本是皇马二队的主帅。由于阿隆索临时下课,皇马将阿韦洛亚推了上来。带队期间,阿韦洛亚未能扭转皇马的困境,且多次被爆出更衣室失控的消息。佛爷认为他不具备执教皇马的能力。《动漫《瞒着妻子去漫展》日语版百度》今年5月,阿里再度亮剑,宣布旗下千问与淘宝全面打通。用户可在千问App内与AI对话,完成淘宝上的商品挑选、对比及下单购买,淘宝App内也上线"千问AI购物助手",提供AI购物及AI试穿、AI算优惠、AI低价帮抢等功能。
20260610 ? 穿越兽世巨棒凶猛NPC龙族对购房者而言,和樾望雲的6.91分通勤便利性,意味着它是一张面向海淀科技从业者、尤其适合30–45岁家庭客群的“高确定性通勤入场券”。若您工作地点位于中关村软件园、永丰产业基地或西二旗互联网企业集群,该项目提供的28分钟通勤圈、双轨多点接驳选择及公交高频覆盖,将显著降低日常通勤焦虑,提升生活节奏掌控力;其第3名的排名也表明,在同等预算下,您无需为“地铁上盖”支付百万佳苑·兰园式的高溢价(9.75万元/㎡),即可获得海淀北部最具兑现保障的通勤体验。《妻子的神秘剧情简介》谈及马刺能否将系列赛拖入至少五场,弗雷泽直言:“我觉得没戏。从尼克斯一路的表现来看,夺冠已是大势所趋。这支队伍每场比赛都展现出强硬的斗志、顽强的韧性与灵活的应变能力。队内十名球员都状态火热,球队势头不会中断。就像今晚,布伦森发挥平平,但立刻有队友站出来得分,整场系列赛都是如此。”