这项由SambaNova Systems(一家专注于AI基础设施的科技公司)研究团队完成的研究,,,,以预印本形式宣布于2026年5月31日,,,,编号为arXiv:2606.01336,,,,论文问题为《LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning》,,,,有兴趣深入相识的读者可以通过上述编号盘问完整论文。。。
假设你是一位状师助理,,,,老板给了你一份两百页的条约,,,,要你在五分钟内找出其中一处要害的误差条款。。。这件事难在那里????难在内容太多,,,,有用信息太少,,,,大宗篇幅是无关紧要的名堂条款。。。你得在茫茫文字中,,,,像大海捞针一样找到那几行要害文字。。。
当今的大型语言模子(简称"大模子",,,,就是ChatGPT、DeepSeek这类AI)面临的逆境与此惊人地相似。。。随着人们越来越多地将超长文档——几十万字的代码库、数百页的执法文书、一连几小时的对话纪录——直接丢给AI处置惩罚,,,,AI所需要"阅读"的内容量早已突破了十万甚至二十万个"词语单位"(专业上称为"token",,,,可以简陋明确为AI处置惩罚文字的基本单位)。。。
这种超长输入对AI系统来说,,,,价钱极其高昂。。。每多处置惩罚一个词,,,,盘算机就要多消耗一点内存和算力,,,,而这个消耗不是线性增添,,,,是成倍增添的。。。处置惩罚十万词的本钱,,,,远不止是处置惩罚一万词的十倍那么简朴——就似乎一锅饭能养活十小我私家,,,,但要养活一百小我私家,,,,你需要的远不止是十口锅,,,,尚有十倍的燃气、十倍的厨师、十倍的餐具。。。
SambaNova Systems的研究团队正是针对这一"大模子阅读焦虑"问题,,,,提出了一套名为LongAttnComp的解决计划。。。它的焦点思绪可以用一个词归纳综合:压缩。。。但这可不是简朴地把文章截短,,,,而是像一位履历富厚的文件助理,,,,先快速浏览全文,,,,把真正有用的段落挑出来,,,,再交给老板细读——既节约了老板的时间,,,,又不丧失任何要害信息。。。
既然文章太长,,,,最直观的步伐就是截断——保存前面一部分,,,,把凌驾长度限制的内容直接扔掉。。。现实上,,,,许多AI系统今天仍在这样做,,,,这种要领叫"中心截断"(middle-truncation)。。。
但这个要领有一个致命问题:要害信息可能恰恰藏在被截掉的那部分里。。。研究领域有一个著名的征象叫"迷失在中心"——研究者发明,,,,当一段文字被安排在超长文档的中心位置时,,,,AI往往会忽略它,,,,纵然那段文字很是主要。。。这就好比一本两百页的书,,,,第一章和最后一章总是被读者记。。。,,,但第八十七页的内容,,,,大大都人读完之后基础想不起来。。。
正由于简朴截断会丧失约息,,,,研究者们最先探索"上下文压缩"这条路。。。上下文压缩的思绪是:与其截断,,,,不如筛选。。。把整篇文档扫一遍,,,,只保存与目今问题相关的部分,,,,去掉那些与问题无关的内容。。。
现在已有的压缩计划大致分为两类。。。第一类叫"抽取式压缩",,,,就像用荧光笔在原文上标记,,,,只保存被标记的部分。。。第二类叫"天生式压缩",,,,就像请人把原文归纳综合成摘要,,,,用新的文字重新表达原文意思。。。两类要领各有优劣,,,,但都面临一个配合难题:怎么知道哪些内容是"有用的"????
此前有一个叫Speculative Prefill(投契式预填充)的计划,,,,用一个轻量级的"底稿模子"先快速扫描文档,,,,凭证它对文字主要性的判断来压缩内容,,,,完全不需要专门训练,,,,开箱即用。。。这个计划在许多使命上体现不错,,,,但在"代码调试"这类需要深度明确的长文本使命上,,,,体现就差强人意了。。。另一个叫AttnComp的计划则选择专门训练一个评分器,,,,效果有所提升,,,,但它只在随笔本(约一万两千个词)上做过测试,,,,训练数据也只用了一个泉源,,,,适用规模相当有限。。。
你走进图书馆,,,,提出一个问题:"条约第三方责任条款有没有误差????"图书馆员没有把整个馆藏都搬给你,,,,而是依附多年积累的检索履历,,,,快速扫视书架,,,,挑出三四本最相关的书,,,,按原来的编号顺序排好,,,,放在你眼前。。。你只需要读这几本书,,,,就能找到谜底。。。
第一步叫"评分"。。。整个超长文档被切割成牢靠巨细的"文字块"(每块包括若干个词),,,,然后一个经由专门训练的"评分器"对每个文字块打分,,,,分数代表该文字块与你提出的问题的相关水平。。。这个评分器实质上是一个经由特殊刷新的AI模子:它的主体(Llama-3.1-8B这个大模子的前13层)被"冻结"起来,,,,不加入训练,,,,只认真明确文字;;;;;;在它上面特殊加了一个可训练的"交织注重力层"(可以明确为专门盘算"问题"和"文字块"之间匹配水平的????椋,,,这才是真正被训练的部分。。。整个评分器只有约0.5%的参数加入训练,,,,很是轻量。。。
第二步叫"筛选"。。。评分完成后,,,,所有文字块按分数从高到低排列,,,,然后从最高脱离始依次选。。。,,,直到知足阻止条件为止。。。LongAttnComp在这里做了一个主要刷新:引入了"token预算"机制。。。简朴说,,,,就是设定一个保存内容的字数上限(好比16000个词),,,,选取文字块直到凑够这个上限,,,,或者累计分数凌驾某个阈值(p=0.95)为止。。。这比原版AttnComp的计划更稳固,,,,不会由于分数盘算的小误差导致保存内容过少。。。
第三步叫"天生"。。。筛选完成后,,,,被保存的文字块会凭证它们在原文中的先后顺序重新排列好(而不是按分数崎岖排列),,,,形成一份"压缩版文档",,,,交给真正认真回覆问题的大模子(好比DeepSeek、GPT等)。。。目的大模子拿到这份压缩版文档后,,,,只需要处置惩罚一万六千词而非十万词以上的内容,,,,既节约了大宗盘算资源,,,,又由于保存了最要害的段落,,,,答题准确率得以维持甚至提升。。。
第一项刷新是"分块方法"的改变。。。原版AttnComp把每一篇文档看成一个整体来评分——但在真实天下里,,,,许多长文本并不是由一篇篇自力文档拼起来的,,,,而是一整段一连的代码、一整份条约、一整篇长报告。。。对这类内容,,,,就没有"文档"可言了。。。LongAttnComp的解决计划是放弃"文档级别"的评分,,,,改为牢靠巨细的"词块级别"评分:把整篇文章切成牢靠长度的小块(好比每块1024个词),,,,对每块划分打分。。。这不但能处置惩罚没有清晰文档界线的长文本,,,,还让"块的巨细"成为一个可调理的参数——针对差别使命,,,,可以选择差别的块大。。。,,,以抵达最优效果。。。
第二项刷新是"筛选机制"的升级。。。上文已提到"token预算"的引入,,,,这里增补一个更细节的设计。。。在某些使命中,,,,有用的信息很是集中,,,,只需要很少的块就能笼罩所有要害内容;;;;;;但在另一些使命中,,,,有用的信息疏散在全文各处,,,,若是过早阻止筛。。。,,,就会遗漏主要证据。。。为了应对后一种情形,,,,LongAttnComp还支持一种"只看预算"的模式:完全不管累计分数是否已经够高,,,,只管一直选取评分最高的块,,,,直到凑满预算上限为止。。。这两种模式各有适用场景,,,,研究团队在差别使命上划分测试了哪种模式更好。。。
第三项刷新是"位置还原"。。。按分数排序筛选出来的块,,,,并不是随机排列的,,,,但它们的先后顺序被打乱了。。。读者都知道,,,,一篇文章的段落顺序是有意义的,,,,后面的段落往往依赖前面的铺垫。。。LongAttnComp在把筛选效果交给目的模子之前,,,,会把各个块恢复到它们在原文中的顺序,,,,坚持文章的逻辑连贯性。。。
第四项刷新是"问题剖析器"的设计。。。评分器需要知道"你的问题是什么",,,,才华盘算文字块与问题的相关水平。。。原版AttnComp假设问题总是泛起在牢靠位置,,,,这在名堂整齐的问答数据集上没问题,,,,但在真实应用中,,,,问题可能藏在提醒词的任何位置,,,,名堂千变万化。。。LongAttnComp引入了一个简朴但适用的计划:直接取输入内容的最后若干个词(好比最后128个词)作为"问题",,,,不管名堂怎样。。。实验证实,,,,这个粗暴但适用的计划,,,,与准确剖析问题界线的计划相比,,,,准确率损失不到1个百分点,,,,大大降低了安排难度。。。
评分器的能力,,,,很洪流平上取决于它被怎样训练。。。SambaNova团队为LongAttnComp设计了一套"两阶段训练计划",,,,可以用作育一名万能型研究助理的历程来明确。。。
第一阶段,,,,打基础。。。研究团队为评分器准备了3.2万条训练样本,,,,泉源是SQuAD(一个经典的英文问答数据集,,,,每个问题只需要找到一篇文章中的一个事实)和HotpotQA(需要同时参考两篇文章才华回覆的多跳问题数据集)。。。训练样本的结构方法模拟了一种叫"NIAH"("大海捞针")的经典测试:把真正有用的段落藏进一堆无关文章中,,,,让评分器学会把"针"从"草堆"里找出来。。。训练完成后,,,,评分器在代码调试和单针、多键检索使命上体现很好,,,,但在需要跨多篇文档综合推理的使命上依然体现欠佳。。。
第二阶段,,,,拓能力。。。;;;;;诘谝唤锥蔚哪W蛹绦盗罚,,,新加入了两类更难的数据:MuSiQue(需要2到4篇文章的多跳推理数据集)和2WikiMultiHopQA(跨维基百科多文章推理)。。。同时,,,,第一阶段的数据也按比例混入,,,,避免模子"遗忘"之前学到的基础能力(这种要领叫"回放",,,,就像温习旧知识避免遗忘)。。。
在第二阶段的训练中,,,,团队还测试了一个有趣的设计选择:关于MuSiQue的多跳问题,,,,训练时是否在问题里特殊附上问题的剖析办法????好比,,,,问题自己是"谁是X国总统的母亲的家乡市长????",,,,附加版本则会特殊提醒"第一步:X国总统是谁????第二步:他的母亲是谁????第三步:她的家乡在那里????第四步:那里的市长是谁????"。。。带剖析办法的版本叫"subq",,,,不带的叫"nosubq"。。。两个版本都被训练出来并划分评测,,,,研究效果批注两者各有输赢,,,,没有绝对的赢家,,,,但在某些使命上subq版本有一定优势,,,,这个发明被研究团队视为一个值得未来深入探索的设计选项。。。
研究团队在三个主流测试场景下评估了LongAttnComp的体现,,,,目的模子涵盖了来自三个差别家族的四款主流大模子:DeepSeek-R1-0528、DeepSeek-V3.1、MiniMax-M2.5和GPT-OSS-120B。。。压缩器使用Llama-3.1-8B-Instruct的前13层作为主干,,,,训练完成后不针对任何目的模子做特殊调解,,,,直接通用。。。
在最主要的测试场景——InfiniteBench的代码调试使命上,,,,测试文档平均长度约11.5万词,,,,部分凌驾20万词。。。不做压缩直接送入DeepSeek-R1-0528时,,,,准确率是74.37%。。。Speculative Prefill压缩后,,,,准确率跌到62.44%,,,,损失近12个百分点。。。LongAttnComp第一阶段模子在压缩至约1.6万词的条件下,,,,反而把准确率推到了75.38%,,,,比不压缩还要横跨整整一个百分点。。。第二阶段的subq版本进一步提升到76.90%,,,,是所有计划中最高的。。。
这个效果乍看令人含混——压缩后反而比不压缩更准确,,,,缘故原由是什么????原来,,,,超长文档中保存大宗无关代码和滋扰信息,,,,连大模子也会被这些噪音疏散注重力。。。LongAttnComp把最要害的代码段提炼出来后,,,,大模子反而能更专注地剖析真正有问题的那段代码,,,,就似乎把一份杂乱无章的文件整理成一份清晰的摘要,,,,反而更容易找到要害信息。。。
跨模子的泛化能力测试效果同样令人印象深刻。。。在DeepSeek-V3.1上,,,,LongAttnComp第一阶段准确率达65.73%,,,,相比不压缩的67.51%差别仅约2个百分点,,,,而Speculative Prefill则跌到59.14%。。。在MiniMax-M2.5上,,,,不压缩准确率83.76%,,,,LongAttnComp第一阶段达81.22%,,,,Speculative Prefill则只有57.10%,,,,差别多达26个百分点。。。在GPT-OSS-120B上,,,,不压缩86.00%,,,,LongAttnComp第一阶段82.99%,,,,Speculative Prefill仅52.28%,,,,差别凌驾30个百分点。。。这意味着LongAttnComp这个用Llama模子训练出来的压缩器,,,,能够跨家族地适配完全差别架构的大模子,,,,而无需为每个目的模子单独重新训练。。。
在更普遍的多文档推理测试场景LongBench v2上,,,,情形更能体现两阶段训练的价值。。。第一阶段模子的总体准确率只有41.7%,,,,不但低于不压缩的56.7%,,,,甚至低于Speculative Prefill的46.3%。。。但第二阶段训练后,,,,subq版本的总体准确率回升到48.9%,,,,nosubq版本抵达49.7%,,,,双双凌驾Speculative Prefill,,,,与截断版全文(51.1%)的差别缩小到1到2个百分点以内。。。其中,,,,subq版本在"长文档"分类下的提升尤为显眼,,,,从41.7%跃升至53.7%,,,,提升幅度达12个百分点。。。
在合成检索测试集RULER上,,,,LongAttnComp在"单针检索"使命(文档中藏着一条要害信息)上体现险些完善:原始测试集中全文本准确率仅57.4%(说明AI确实会"迷失在中心"),,,,LongAttnComp第一阶段模子则以极小的压缩文本(平均约2000词,,,,远低于16000词的预算上限)抵达了99.2%的准确率。。。在需要同时找到漫衍在多处的多条信息时,,,,LongAttnComp也优于不压缩计划,,,,只在信息极端疏散的"多值"和"多盘问"子使命上略有缺乏,,,,与LongBench v2的纪律一致。。。
除了准确率,,,,效率也是这套计划的主要优势。。。Speculative Prefill曾有报告显示,,,,将12.8万词的文档压缩至1.6万词,,,,首个词的天生时间(TTFT,,,,time-to-first-token,,,,类比于你点菜后品级一道菜上桌的时间)从46秒降至2.5秒,,,,足足快了18倍多。。。
LongAttnComp的压缩器只用了Llama模子前13层(共32层),,,,相当于用约40%的模子做评分事情。。。由此推算,,,,LongAttnComp的压缩开销约为Speculative Prefill的三分之一,,,,而在准确率上还更胜一筹。。。;;;;;痪浠八担,,,这套计划不但让大模子回覆得更准,,,,还让整个系统跑得更快、破费更少。。。
训练数据的局限是最突出的问题。。。无论是第一阶段照旧第二阶段,,,,训练数据都来自合成结构的"大海捞针"名堂,,,,把真实问答数据集的段落藏进随机填充的滋扰内容里。。。真实天下的长文档往往比这重大得多,,,,证据之间的关联更迂回,,,,推理链条更多跳,,,,这正是LongBench v2依然留有差别的基础缘故原由。。。团队以为,,,,引入更多自然收罗的长文本训练数据是下一步的主要使命。。。
超参数对使命的依赖性也是一个现实使用中的贫困。。????榈拇笮。。。ù氲魇杂1024词/块,,,,合成检索用256词/块,,,,多文档推理用32词/块)、问题窗口大。。。128到512词不等)、筛选模式(累计分数照旧纯预算)都需要凭证使命类型调解。。。在不知道使命类型的情形下,,,,一套牢靠设置会让某些使命的体现大打折扣。。。研究团队以为,,,,设计一个能自动感知使命类型并调解参数的自顺应机制,,,,是值得深入研究的偏向。。。
别的,,,,本研究所有实验都使用统一个压缩器主干(Llama-3.1-8B-Instruct),,,,更小或更大的主干模子是否同样适用,,,,尚未测试。。。所有目的模子也都通过SambaNova云端API挪用,,,,没有直接的硬件效率丈量数据,,,,真实的端到端速率提升只能依据理论估算。。。
说究竟,,,,LongAttnComp做的事情,,,,和一位优异的阅读助理没有太大区别:在你启齿问问题之前,,,,先把那本厚厚的报告快速翻一遍,,,,标出最值得你关注的段落,,,,按原来的顺序整齐摆好,,,,再递到你手边。。。只不过,,,,这位助理受过专门训练,,,,速率极快,,,,并且无论你问的是代码误差、历史事务照旧多文档综合剖析,,,,都能胜任。。。
这项研究对通俗人的意义在于:随着AI工具越来越多地进入一样平常事情,,,,处置惩罚速率和本钱将直接影响使用体验。。。LongAttnComp这类压缩手艺,,,,是让AI工具从"无意用用"酿成"随时可用"的要害一环。。。当一个执法AI助理能在几秒钟内从一份两百页条约中找到要害条款,,,,而不是花几十秒"逐步读完";;;;;;当一个代码审查AI能快速定位一个十万行项目中的bug,,,,而不是被无关代码淹没——这些都离不开高效可靠的上下文压缩手艺在背后支持。。。
对这个领域感兴趣的读者,,,,可以继续思索这样一个问题:压缩自己是否也会损失约息????研究团队的数据批注,,,,在某些使命上压缩反而提升了准确率,,,,这说明"更少但更精准"有时间胜过"更多但充满噪音"。。。这个发明对人类自己的阅读和学习方法,,,,是否也有一些启发????想深入相识完整手艺细节的读者,,,,可通过arXiv:2606.01336查阅原论文。。。
A:LongAttnComp不是写摘要,,,,而是"抽取式压缩"——它直接从原文中挑选最相关的段落,,,,坚持原始文字稳固,,,,按原来的顺序拼在一起。。。摘要是用新的语言重新归纳综合,,,,可能会引入误差;;;;;;LongAttnComp保存的是原文片断,,,,目的大模子读到的是真实的原始内容,,,,不保存摘要带来的二次明确误差。。。
A:缘故原由在于超长文档中保存大宗与问题无关的滋扰内容,,,,大模子在处置惩罚时同样会被这些内容疏散注重力,,,,导致对要害信息的关注度下降(研究者称之为"迷失在中心"征象)。。。LongAttnComp把无关内容过滤掉后,,,,目的模子能更专注地处置惩罚真正相关的段落,,,,反而做出更准确的判断。。。
A:基本可以,,,,这正是这项研究的亮点之一。。。训练时使用的是Llama-3.1-8B模子,,,,但实验证实,,,,不经由任何针对性调解,,,,统一个压缩器就能直接用于DeepSeek、MiniMax、GPT-OSS等完全差别家族的大模子,,,,准确率损失很小。。。这意味着压缩器训练一次就能普遍适配多种目的模子,,,,大大降低了现实安排本钱。。。
《鲜肉老师第一集》之后我们又抱有期待,觉得他能赶上对阵塞内加尔的热身赛,可他的康复周期一再拉长,说实话,这件事让我有些恼火,我并不满意现状,因为所有人都清楚克里斯是队内的关键球员。很多时候我们获取的伤情信息不够明晰,最终只能被动等待他康复,就像你所说,我们现在要面对一名长期缺赛的球员,而世界杯赛程紧凑,没有富余时间给他慢慢找回比赛状态。经当地交警大队委托,贵州中一司法鉴定中心鉴定,彭某事发前驾驶的摩托车转向系、制动系、行驶系、照明装置均合格。分析事故发生原因是彭某驾驶的无号牌二轮摩托车车体左前侧与斜置倒在路面上电缆线发生刮擦后,车体往右前方运动越过电缆线,随后车体左侧倒地滑坡至道路右侧边沟处底盘中部碰撞边沟,车体向右侧翻朝右前方运动至耕地内的电缆线,彭某摔倒至道路右侧水沟内,造成颅脑严重损伤而死亡……《鲜肉老师第一集》露脚踝白鞋白袜他过去六个月里反复困扰的背部伤病,这一次达到了最严重的程度。巴黎圣日耳曼在比赛中零星的进攻推进,无论是下半场结束前还是加时赛阶段,都加重了他的背部负担。在一次与队友的交流中,这位担心他状态的队友看到他痛苦的样子时,他低声说了一句:“这不妙……”这指的是即将到来的世界杯(6月11日—7月19日)。报道称,黄仁勋此次访韩共持续四天。7日,他将与韩国游戏公司NCsoft的CEO会面,随后赴棒球场开球;8日预计依次访问LG集团总部、首尔大学、现代汽车良才办公楼和Naver第二总部。黄仁勋还将出演韩国艺人刘在石主持的娱乐综艺,6月10日播出。有报道称这是黄仁勋“全球首次登上娱乐脱口秀”。
20260608 ? 《鲜肉老师第一集》5月29日,代夫家所在小区的物业工作人员汪先生向红星新闻记者介绍,当天他和保安一起去了代夫家,据其回忆,孙某当时多次说“让代夫去死,你跳嘛”之类的话,民警到了都还在说。汪先生也证实,当时孙某说要去代夫单位找其领导,随后代夫就坠楼了。游泳馆的神秘苏晴TXT最新章节葡萄牙对阵智利赛后,伯纳多-席尔瓦在混合采访区谈到了自己的未来。伯纳多表示,他还没有决定下赛季效力哪家俱乐部,但确认巴塞罗那是自己手里的选择之一。
20260608 ? 《鲜肉老师第一集》黎晓宏的早年工作经历,互联网上公开信息并不多,从其履历看,大致遵循了从企业到政坛的路径。他16岁参加工作,后来任北京玻璃总厂党委书记、北京玻璃集团公司党委书记。jM“我很享受。我喜欢他的参与。这太不可思议了,他值得很多赞誉,因为他不仅投资了足球俱乐部,还全身心投入,以确保俱乐部取得成功。这是一段很棒的旅程,过去几年非常精彩,但如果森林的故事不那么跌宕起伏,没有鲜明个性,那就不是森林了。”