10秒详论!穿越兽世巨棒凶猛NPC龙族SambaNova Systems研究团队研发的"AI文档压缩神器"

这项由SambaNova Systems（一家专注于AI基础设施的科技公司）研究团队完成的研究，，，，，以预印本形式宣布于2026年5月31日，，，，，编号为arXiv:2606.01336，，，，，论文问题为《LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning》，，，，，有兴趣深入相识的读者可以通过上述编号盘问完整论文。。。。假设你是一位状师助理，，，，，老板给了你一份两百页的条约，，，，，要你在五分钟内找出其中一处要害的误差条款。。。。这件事难在那里？？？难在内容太多，，，，，有用信息太少，，，，，大宗篇幅是无关紧要的名堂条款。。。。你得在茫茫文字中，，，，，像大海捞针一样找到那几行要害文字。。。。当今的大型语言模子（简称"大模子"，，，，，就是ChatGPT、DeepSeek这类AI）面临的逆境与此惊人地相似。。。。随着人们越来越多地将超长文档——几十万字的代码库、数百页的执法文书、一连几小时的对话纪录——直接丢给AI处置惩罚，，，，，AI所需要"阅读"的内容量早已突破了十万甚至二十万个"词语单位"（专业上称为"token"，，，，，可以简陋明确为AI处置惩罚文字的基本单位）。。。。这种超长输入对AI系统来说，，，，，价钱极其高昂。。。。每多处置惩罚一个词，，，，，盘算机就要多消耗一点内存和算力，，，，，而这个消耗不是线性增添，，，，，是成倍增添的。。。。处置惩罚十万词的本钱，，，，，远不止是处置惩罚一万词的十倍那么简朴——就似乎一锅饭能养活十小我私家，，，，，但要养活一百小我私家，，，，，你需要的远不止是十口锅，，，，，尚有十倍的燃气、十倍的厨师、十倍的餐具。。。。 SambaNova Systems的研究团队正是针对这一"大模子阅读焦虑"问题，，，，，提出了一套名为LongAttnComp的解决计划。。。。它的焦点思绪可以用一个词归纳综合：压缩。。。。但这可不是简朴地把文章截短，，，，，而是像一位履历富厚的文件助理，，，，，先快速浏览全文，，，，，把真正有用的段落挑出来，，，，，再交给老板细读——既节约了老板的时间，，，，，又不丧失任何要害信息。。。。既然文章太长，，，，，最直观的步伐就是截断——保存前面一部分，，，，，把凌驾长度限制的内容直接扔掉。。。。现实上，，，，，许多AI系统今天仍在这样做，，，，，这种要领叫"中心截断"（middle-truncation）。。。。但这个要领有一个致命问题：要害信息可能恰恰藏在被截掉的那部分里。。。。研究领域有一个著名的征象叫"迷失在中心"——研究者发明，，，，，当一段文字被安排在超长文档的中心位置时，，，，，AI往往会忽略它，，，，，纵然那段文字很是主要。。。。这就好比一本两百页的书，，，，，第一章和最后一章总是被读者记着，，，，，但第八十七页的内容，，，，，大大都人读完之后基础想不起来。。。。正由于简朴截断会丧失约息，，，，，研究者们最先探索"上下文压缩"这条路。。。。上下文压缩的思绪是：与其截断，，，，，不如筛选。。。。把整篇文档扫一遍，，，，，只保存与目今问题相关的部分，，，，，去掉那些与问题无关的内容。。。。现在已有的压缩计划大致分为两类。。。。第一类叫"抽取式压缩"，，，，，就像用荧光笔在原文上标记，，，，，只保存被标记的部分。。。。第二类叫"天生式压缩"，，，，，就像请人把原文归纳综合成摘要，，，，，用新的文字重新表达原文意思。。。。两类要领各有优劣，，，，，但都面临一个配合难题：怎么知道哪些内容是"有用的"？？？此前有一个叫Speculative Prefill（投契式预填充）的计划，，，，，用一个轻量级的"底稿模子"先快速扫描文档，，，，，凭证它对文字主要性的判断来压缩内容，，，，，完全不需要专门训练，，，，，开箱即用。。。。这个计划在许多使命上体现不错，，，，，但在"代码调试"这类需要深度明确的长文本使命上，，，，，体现就差强人意了。。。。另一个叫AttnComp的计划则选择专门训练一个评分器，，，，，效果有所提升，，，，，但它只在随笔本（约一万两千个词）上做过测试，，，，，训练数据也只用了一个泉源，，，，，适用规模相当有限。。。。你走进图书馆，，，，，提出一个问题："条约第三方责任条款有没有误差？？？"图书馆员没有把整个馆藏都搬给你，，，，，而是依附多年积累的检索履历，，，，，快速扫视书架，，，，，挑出三四本最相关的书，，，，，按原来的编号顺序排好，，，，，放在你眼前。。。。你只需要读这几本书，，，，，就能找到谜底。。。。第一步叫"评分"。。。。整个超长文档被切割成牢靠巨细的"文字块"（每块包括若干个词），，，，，然后一个经由专门训练的"评分器"对每个文字块打分，，，，，分数代表该文字块与你提出的问题的相关水平。。。。这个评分器实质上是一个经由特殊刷新的AI模子：它的主体（Llama-3.1-8B这个大模子的前13层）被"冻结"起来，，，，，不加入训练，，，，，只认真明确文字；；；；；；在它上面特殊加了一个可训练的"交织注重力层"（可以明确为专门盘算"问题"和"文字块"之间匹配水平的模？？椋，，，，，这才是真正被训练的部分。。。。整个评分器只有约0.5%的参数加入训练，，，，，很是轻量。。。。第二步叫"筛选"。。。。评分完成后，，，，，所有文字块按分数从高到低排列，，，，，然后从最高脱离始依次选取，，，，，直到知足阻止条件为止。。。。LongAttnComp在这里做了一个主要刷新：引入了"token预算"机制。。。。简朴说，，，，，就是设定一个保存内容的字数上限（好比16000个词），，，，，选取文字块直到凑够这个上限，，，，，或者累计分数凌驾某个阈值（p=0.95）为止。。。。这比原版AttnComp的计划更稳固，，，，，不会由于分数盘算的小误差导致保存内容过少。。。。第三步叫"天生"。。。。筛选完成后，，，，，被保存的文字块会凭证它们在原文中的先后顺序重新排列好（而不是按分数崎岖排列），，，，，形成一份"压缩版文档"，，，，，交给真正认真回覆问题的大模子（好比DeepSeek、GPT等）。。。。目的大模子拿到这份压缩版文档后，，，，，只需要处置惩罚一万六千词而非十万词以上的内容，，，，，既节约了大宗盘算资源，，，，，又由于保存了最要害的段落，，，，，答题准确率得以维持甚至提升。。。。第一项刷新是"分块方法"的改变。。。。原版AttnComp把每一篇文档看成一个整体来评分——但在真实天下里，，，，，许多长文本并不是由一篇篇自力文档拼起来的，，，，，而是一整段一连的代码、一整份条约、一整篇长报告。。。。对这类内容，，，，，就没有"文档"可言了。。。。LongAttnComp的解决计划是放弃"文档级别"的评分，，，，，改为牢靠巨细的"词块级别"评分：把整篇文章切成牢靠长度的小块（好比每块1024个词），，，，，对每块划分打分。。。。这不但能处置惩罚没有清晰文档界线的长文本，，，，，还让"块的巨细"成为一个可调理的参数——针对差别使命，，，，，可以选择差别的块巨细，，，，，以抵达最优效果。。。。第二项刷新是"筛选机制"的升级。。。。上文已提到"token预算"的引入，，，，，这里增补一个更细节的设计。。。。在某些使命中，，，，，有用的信息很是集中，，，，，只需要很少的块就能笼罩所有要害内容；；；；；；但在另一些使命中，，，，，有用的信息疏散在全文各处，，，，，若是过早阻止筛选，，，，，就会遗漏主要证据。。。。为了应对后一种情形，，，，，LongAttnComp还支持一种"只看预算"的模式：完全不管累计分数是否已经够高，，，，，只管一直选取评分最高的块，，，，，直到凑满预算上限为止。。。。这两种模式各有适用场景，，，，，研究团队在差别使命上划分测试了哪种模式更好。。。。第三项刷新是"位置还原"。。。。按分数排序筛选出来的块，，，，，并不是随机排列的，，，，，但它们的先后顺序被打乱了。。。。读者都知道，，，，，一篇文章的段落顺序是有意义的，，，，，后面的段落往往依赖前面的铺垫。。。。LongAttnComp在把筛选效果交给目的模子之前，，，，，会把各个块恢复到它们在原文中的顺序，，，，，坚持文章的逻辑连贯性。。。。第四项刷新是"问题剖析器"的设计。。。。评分器需要知道"你的问题是什么"，，，，，才华盘算文字块与问题的相关水平。。。。原版AttnComp假设问题总是泛起在牢靠位置，，，，，这在名堂整齐的问答数据集上没问题，，，，，但在真实应用中，，，，，问题可能藏在提醒词的任何位置，，，，，名堂千变万化。。。。LongAttnComp引入了一个简朴但适用的计划：直接取输入内容的最后若干个词（好比最后128个词）作为"问题"，，，，，不管名堂怎样。。。。实验证实，，，，，这个粗暴但适用的计划，，，，，与准确剖析问题界线的计划相比，，，，，准确率损失不到1个百分点，，，，，大大降低了安排难度。。。。评分器的能力，，，，，很洪流平上取决于它被怎样训练。。。。SambaNova团队为LongAttnComp设计了一套"两阶段训练计划"，，，，，可以用作育一名万能型研究助理的历程来明确。。。。第一阶段，，，，，打基础。。。。研究团队为评分器准备了3.2万条训练样本，，，，，泉源是SQuAD（一个经典的英文问答数据集，，，，，每个问题只需要找到一篇文章中的一个事实）和HotpotQA（需要同时参考两篇文章才华回覆的多跳问题数据集）。。。。训练样本的结构方法模拟了一种叫"NIAH"（"大海捞针"）的经典测试：把真正有用的段落藏进一堆无关文章中，，，，，让评分器学会把"针"从"草堆"里找出来。。。。训练完成后，，，，，评分器在代码调试和单针、多键检索使命上体现很好，，，，，但在需要跨多篇文档综合推理的使命上依然体现欠佳。。。。第二阶段，，，，，拓能力。。。；；；；；；诘谝唤锥蔚哪Ｗ蛹绦盗，，，，，新加入了两类更难的数据：MuSiQue（需要2到4篇文章的多跳推理数据集）和2WikiMultiHopQA（跨维基百科多文章推理）。。。。同时，，，，，第一阶段的数据也按比例混入，，，，，避免模子"遗忘"之前学到的基础能力（这种要领叫"回放"，，，，，就像温习旧知识避免遗忘）。。。。在第二阶段的训练中，，，，，团队还测试了一个有趣的设计选择：关于MuSiQue的多跳问题，，，，，训练时是否在问题里特殊附上问题的剖析办法？？？好比，，，，，问题自己是"谁是X国总统的母亲的家乡市长？？？"，，，，，附加版本则会特殊提醒"第一步：X国总统是谁？？？第二步：他的母亲是谁？？？第三步：她的家乡在那里？？？第四步：那里的市长是谁？？？"。。。。带剖析办法的版本叫"subq"，，，，，不带的叫"nosubq"。。。。两个版本都被训练出来并划分评测，，，，，研究效果批注两者各有输赢，，，，，没有绝对的赢家，，，，，但在某些使命上subq版本有一定优势，，，，，这个发明被研究团队视为一个值得未来深入探索的设计选项。。。。研究团队在三个主流测试场景下评估了LongAttnComp的体现，，，，，目的模子涵盖了来自三个差别家族的四款主流大模子：DeepSeek-R1-0528、DeepSeek-V3.1、MiniMax-M2.5和GPT-OSS-120B。。。。压缩器使用Llama-3.1-8B-Instruct的前13层作为主干，，，，，训练完成后不针对任何目的模子做特殊调解，，，，，直接通用。。。。在最主要的测试场景——InfiniteBench的代码调试使命上，，，，，测试文档平均长度约11.5万词，，，，，部分凌驾20万词。。。。不做压缩直接送入DeepSeek-R1-0528时，，，，，准确率是74.37%。。。。Speculative Prefill压缩后，，，，，准确率跌到62.44%，，，，，损失近12个百分点。。。。LongAttnComp第一阶段模子在压缩至约1.6万词的条件下，，，，，反而把准确率推到了75.38%，，，，，比不压缩还要横跨整整一个百分点。。。。第二阶段的subq版本进一步提升到76.90%，，，，，是所有计划中最高的。。。。这个效果乍看令人含混——压缩后反而比不压缩更准确，，，，，缘故原由是什么？？？原来，，，，，超长文档中保存大宗无关代码和滋扰信息，，，，，连大模子也会被这些噪音疏散注重力。。。。LongAttnComp把最要害的代码段提炼出来后，，，，，大模子反而能更专注地剖析真正有问题的那段代码，，，，，就似乎把一份杂乱无章的文件整理成一份清晰的摘要，，，，，反而更容易找到要害信息。。。。跨模子的泛化能力测试效果同样令人印象深刻。。。。在DeepSeek-V3.1上，，，，，LongAttnComp第一阶段准确率达65.73%，，，，，相比不压缩的67.51%差别仅约2个百分点，，，，，而Speculative Prefill则跌到59.14%。。。。在MiniMax-M2.5上，，，，，不压缩准确率83.76%，，，，，LongAttnComp第一阶段达81.22%，，，，，Speculative Prefill则只有57.10%，，，，，差别多达26个百分点。。。。在GPT-OSS-120B上，，，，，不压缩86.00%，，，，，LongAttnComp第一阶段82.99%，，，，，Speculative Prefill仅52.28%，，，，，差别凌驾30个百分点。。。。这意味着LongAttnComp这个用Llama模子训练出来的压缩器，，，，，能够跨家族地适配完全差别架构的大模子，，，，，而无需为每个目的模子单独重新训练。。。。在更普遍的多文档推理测试场景LongBench v2上，，，，，情形更能体现两阶段训练的价值。。。。第一阶段模子的总体准确率只有41.7%，，，，，不但低于不压缩的56.7%，，，，，甚至低于Speculative Prefill的46.3%。。。。但第二阶段训练后，，，，，subq版本的总体准确率回升到48.9%，，，，，nosubq版本抵达49.7%，，，，，双双凌驾Speculative Prefill，，，，，与截断版全文（51.1%）的差别缩小到1到2个百分点以内。。。。其中，，，，，subq版本在"长文档"分类下的提升尤为显眼，，，，，从41.7%跃升至53.7%，，，，，提升幅度达12个百分点。。。。在合成检索测试集RULER上，，，，，LongAttnComp在"单针检索"使命（文档中藏着一条要害信息）上体现险些完善：原始测试集中全文本准确率仅57.4%（说明AI确实会"迷失在中心"），，，，，LongAttnComp第一阶段模子则以极小的压缩文本（平均约2000词，，，，，远低于16000词的预算上限）抵达了99.2%的准确率。。。。在需要同时找到漫衍在多处的多条信息时，，，，，LongAttnComp也优于不压缩计划，，，，，只在信息极端疏散的"多值"和"多盘问"子使命上略有缺乏，，，，，与LongBench v2的纪律一致。。。。除了准确率，，，，，效率也是这套计划的主要优势。。。。Speculative Prefill曾有报告显示，，，，，将12.8万词的文档压缩至1.6万词，，，，，首个词的天生时间（TTFT，，，，，time-to-first-token，，，，，类比于你点菜后品级一道菜上桌的时间）从46秒降至2.5秒，，，，，足足快了18倍多。。。。 LongAttnComp的压缩器只用了Llama模子前13层（共32层），，，，，相当于用约40%的模子做评分事情。。。。由此推算，，，，，LongAttnComp的压缩开销约为Speculative Prefill的三分之一，，，，，而在准确率上还更胜一筹。。。；；；；；；痪浠八，，，，，这套计划不但让大模子回覆得更准，，，，，还让整个系统跑得更快、破费更少。。。。训练数据的局限是最突出的问题。。。。无论是第一阶段照旧第二阶段，，，，，训练数据都来自合成结构的"大海捞针"名堂，，，，，把真实问答数据集的段落藏进随机填充的滋扰内容里。。。。真实天下的长文档往往比这重大得多，，，，，证据之间的关联更迂回，，，，，推理链条更多跳，，，，，这正是LongBench v2依然留有差别的基础缘故原由。。。。团队以为，，，，，引入更多自然收罗的长文本训练数据是下一步的主要使命。。。。超参数对使命的依赖性也是一个现实使用中的贫困。。。。？？榈木尴福。。。ù氲魇杂1024词/块，，，，，合成检索用256词/块，，，，，多文档推理用32词/块）、问题窗口巨细！。。128到512词不等）、筛选模式（累计分数照旧纯预算）都需要凭证使命类型调解。。。。在不知道使命类型的情形下，，，，，一套牢靠设置会让某些使命的体现大打折扣。。。。研究团队以为，，，，，设计一个能自动感知使命类型并调解参数的自顺应机制，，，，，是值得深入研究的偏向。。。。别的，，，，，本研究所有实验都使用统一个压缩器主干（Llama-3.1-8B-Instruct），，，，，更小或更大的主干模子是否同样适用，，，，，尚未测试。。。。所有目的模子也都通过SambaNova云端API挪用，，，，，没有直接的硬件效率丈量数据，，，，，真实的端到端速率提升只能依据理论估算。。。。说究竟，，，，，LongAttnComp做的事情，，，，，和一位优异的阅读助理没有太大区别：在你启齿问问题之前，，，，，先把那本厚厚的报告快速翻一遍，，，，，标出最值得你关注的段落，，，，，按原来的顺序整齐摆好，，，，，再递到你手边。。。。只不过，，，，，这位助理受过专门训练，，，，，速率极快，，，，，并且无论你问的是代码误差、历史事务照旧多文档综合剖析，，，，，都能胜任。。。。这项研究对通俗人的意义在于：随着AI工具越来越多地进入一样平常事情，，，，，处置惩罚速率和本钱将直接影响使用体验。。。。LongAttnComp这类压缩手艺，，，，，是让AI工具从"无意用用"酿成"随时可用"的要害一环。。。。当一个执法AI助理能在几秒钟内从一份两百页条约中找到要害条款，，，，，而不是花几十秒"逐步读完"；；；；；；当一个代码审查AI能快速定位一个十万行项目中的bug，，，，，而不是被无关代码淹没——这些都离不开高效可靠的上下文压缩手艺在背后支持。。。。对这个领域感兴趣的读者，，，，，可以继续思索这样一个问题：压缩自己是否也会损失约息？？？研究团队的数据批注，，，，，在某些使命上压缩反而提升了准确率，，，，，这说明"更少但更精准"有时间胜过"更多但充满噪音"。。。。这个发明对人类自己的阅读和学习方法，，，，，是否也有一些启发？？？想深入相识完整手艺细节的读者，，，，，可通过arXiv:2606.01336查阅原论文。。。。 A：LongAttnComp不是写摘要，，，，，而是"抽取式压缩"——它直接从原文中挑选最相关的段落，，，，，坚持原始文字稳固，，，，，按原来的顺序拼在一起。。。。摘要是用新的语言重新归纳综合，，，，，可能会引入误差；；；；；；LongAttnComp保存的是原文片断，，，，，目的大模子读到的是真实的原始内容，，，，，不保存摘要带来的二次明确误差。。。。 A：缘故原由在于超长文档中保存大宗与问题无关的滋扰内容，，，，，大模子在处置惩罚时同样会被这些内容疏散注重力，，，，，导致对要害信息的关注度下降（研究者称之为"迷失在中心"征象）。。。。LongAttnComp把无关内容过滤掉后，，，，，目的模子能更专注地处置惩罚真正相关的段落，，，，，反而做出更准确的判断。。。。 A：基本可以，，，，，这正是这项研究的亮点之一。。。。训练时使用的是Llama-3.1-8B模子，，，，，但实验证实，，，，，不经由任何针对性调解，，，，，统一个压缩器就能直接用于DeepSeek、MiniMax、GPT-OSS等完全差别家族的大模子，，，，，准确率损失很小。。。。这意味着压缩器训练一次就能普遍适配多种目的模子，，，，，大大降低了现实安排本钱。。。。

                                穿越兽世巨棒凶猛NPC龙族Emergence World 的这场实验就验证了，当下的大模型，在面临长期运转和利益冲突时，判断和决策会被生存压力污染，进而在固定的规则中寻找漏洞。为了完成系统设定的核心指令（比如赚能量），它们会不择手段。在健身辅导方面，苹果 watchOS 27 同步升级 Workout Buddy（运动伙伴），新增西班牙语支持，并可依据用户过往健身历史给出更个性化的激励与反馈。此外用户在锻炼时使用 Workout Buddy 不再需要随身携带 iPhone。穿越兽世巨棒凶猛NPC龙族《三人成行(3)鸣銮笔趣阁》根据《马卡报》的说法，双方的表述其实各有部分属实。皇马确实曾主动联系马竞，表达对这位阿根廷前锋的兴趣，并询问球员情况。不过，马竞从一开始就没有给谈判留下空间，明确表示不会出售胡利安，因此双方并未进一步讨论转会细节。AI大模型竞争，表面上看是GPU、网络、算法和数据的竞争。穿透到底层，则是电力供应能力、能源成本和电力质量的竞争。智算中心的负荷具有高度集中、高功率密度、连续运行、波动冲击强等特征，已经远远超出传统互联网数据中心的能耗曲线。
                            

                                20260610 ? 穿越兽世巨棒凶猛NPC龙族阿韦洛亚本赛季原本是皇马二队的主帅。由于阿隆索临时下课，皇马将阿韦洛亚推了上来。带队期间，阿韦洛亚未能扭转皇马的困境，且多次被爆出更衣室失控的消息。佛爷认为他不具备执教皇马的能力。《动漫《瞒着妻子去漫展》日语版百度》今年5月，阿里再度亮剑，宣布旗下千问与淘宝全面打通。用户可在千问App内与AI对话，完成淘宝上的商品挑选、对比及下单购买，淘宝App内也上线"千问AI购物助手"，提供AI购物及AI试穿、AI算优惠、AI低价帮抢等功能。
                            

? 邱智勇记者麻辉摄

                                20260610 ? 穿越兽世巨棒凶猛NPC龙族对购房者而言，和樾望雲的6.91分通勤便利性，意味着它是一张面向海淀科技从业者、尤其适合30–45岁家庭客群的“高确定性通勤入场券”。若您工作地点位于中关村软件园、永丰产业基地或西二旗互联网企业集群，该项目提供的28分钟通勤圈、双轨多点接驳选择及公交高频覆盖，将显著降低日常通勤焦虑，提升生活节奏掌控力；其第3名的排名也表明，在同等预算下，您无需为“地铁上盖”支付百万佳苑·兰园式的高溢价（9.75万元/㎡），即可获得海淀北部最具兑现保障的通勤体验。《妻子的神秘剧情简介》谈及马刺能否将系列赛拖入至少五场，弗雷泽直言：“我觉得没戏。从尼克斯一路的表现来看，夺冠已是大势所趋。这支队伍每场比赛都展现出强硬的斗志、顽强的韧性与灵活的应变能力。队内十名球员都状态火热，球队势头不会中断。就像今晚，布伦森发挥平平，但立刻有队友站出来得分，整场系列赛都是如此。”
                            

? 黄恒礼记者葛红摄

                            ? 英格兰名宿乔-科尔认为，英格兰队主帅图赫尔在世界杯上的排兵布阵不必在贝林厄姆和摩根-罗杰斯之间二选一，相反，他完全可以让两人同时首发，组成极具威胁的进攻组合。外国人B站
                        

888集团