888集团

三叶草OZWEEGO3M舍弃CUDA编程!CMU等用代码将LLM编译成巨型内核,推理延迟降6.7倍

2026-06-05 11:36:28 泉源：霍桂旺

字号：默认大超大 | 打印 |

克日，，，，，，，CMU 助理教授贾志豪（Zhihao Jia）团队立异玩法，，，，，，，推出了一个名为「Mirage Persistent Kernel（MPK）」的编译器，，，，，，，可以自动将 LLM 转化为优化的巨型内核（megakernel），，，，，，，从而将 LLM 推理延迟降低 1.2 到 6.7 倍。。。。在这种设计中，，，，，，，系统仅启动一个 GPU 内核来执行整个模子 —— 从逐层盘算到 GPU 间通讯 —— 整个历程无需中止。。。。这种要领提供了以下几个要害的性能优势：消除内核启动开销：通过阻止重复的内核挪用，，，，，，，纵然是在多 GPU 情形下，，，，，，，也能消除内核启动开销；；；；；；实现跨层软件 pipeline 允许内核在盘算目今层的同时，，，，，，，最先为下一层加载数据；；；；；；重叠盘算与通讯：由于巨型内核可以同时执行盘算操作和 GPU 间通讯，，，，，，，从而隐藏通讯延迟。。。。现有的高级 ML 框架 —— 如 PyTorch、Triton 和 TVM，，，，，，，它们自己并不支持端到端巨型内核天生。。。。别的，，，，，，，现代 LLM 系统由州差别的专用内核库构建而成：用于通讯的 NCCL 或 NVSHMEM，，，，，，，用于高效注重力盘算的 FlashInfer 或 FlashAttention，，，，，，，以及用于自界说盘算的 CUDA 或 Triton。。。。那么能否通过编译自动化这个历程呢？？？？？受到这个问题的启发，，，，，，，来自 CMU、华盛顿大学、加州大学伯克利分校、英伟达和清华大学的团队开发出了 MPK—— 一个编译器和运行时系统，，，，，，，它能自动将多 GPU 的 LLM 推理转换为高性能的巨型内核。。。。MPK 释放了端到端 GPU 融合的效能优势，，，，，，，同时只需要开发者支付极小的手动起劲。。。。 MPK 的一个要害优势在于：通过消除内核启动开销，，，，，，，并最洪流平地重叠跨层的盘算、数据加载和 GPU 间通讯，，，，，，，实现了极低的 LLM 推理延迟。。。。除了单 GPU 优化，，，，，，，MPK 还将盘算与 GPU 间通讯融合进一个简单的巨型内核。。。。这种设计使得 MPK 能够最洪流平地重叠盘算与通讯。。。。因此，，，，，，，MPK 相关于目今系统的性能提升随着 GPU 数目的增添而增大，，，，，，，使其在多 GPU 安排场景下尤为高效。。。。 Part 1：MPK 编译器，，，，，，，其将 LLM 的盘算图转化为优化的使命图；；；；；；Part 2：MPK 运行时系统，，，，，，，该系统在单个巨型内核内执行使命图，，，，，，，以实现高吞吐量与低延迟。。。。 LLM 的盘算历程通常体现为盘算图，，，，，，，其中每个节点对应一个盘算算子（如矩阵乘法、注重力机制）或荟萃通讯原语（如 all-reduce），，，，，，，边体现算子间的数据依赖关系。。。。现有系统通常为每个算子启动自力的 GPU 内核。。。。然而，，，，，，，这种「单算子单内核」的执行模子难以实现 pipeline 优化，，，，，，，由于依赖关系是在整个内核的粗粒度层面强制执行的，，，，，，，而非现实数据单位层面。。。。典范案例如矩阵乘法（matmul）后接 all-reduce 操作：现有系统中，，，，，，，all-reduce 内核必需期待整个 matmul 内核完成。。。。而现实上，，，，，，，all-reduce 的每个数据分块仅依赖 matmul 输出的局部效果。。。。这种逻辑依赖与现实依赖的错配，，，，，，，严重限制了盘算与通讯的重叠潜力。。。。下图 2 展示了 MPK 编译器将 PyTorch 界说的 LLM 盘算图转化为优化细粒度使命图，，，，，，，最大化袒露并行性。。。。右侧展示次优计划 —— 其引入不须要的数据依赖与全局屏障，，，，，，，导致跨层流水线优化时机受限。。。。为相识决此问题，，，，，，，MPK 引入的编译器可将 LLM 盘算图自动转化为细粒度使命图。。。。该使命图在子内核级别显式捕获依赖关系，，，，，，，实现更激进的跨层流水线优化。。。。使命（矩形体现），，，，，，，代表分派给单个 GPU 流式多处置惩罚器（SM）的盘算 / 通讯单位。。。。事务（圆形体现），，，，，，，体现使命间的同步点。。。。触发机制，，，，，，，每个使命发出指向触发事务的边，，，，，，，该事务在关联使命所有完成后激活。。。。依赖机制，，，，，，，每个使命吸收来自依赖事务的边，，，，，，，批注事务激活后使命连忙启动。。。。使命图使 MPK 能够掘客盘算图中无法实现的 pipeline 优化时机。。。。例如，，，，，，，MPK 可以构建优化使命图 —— 其中每个 all-reduce 使命仅依赖于天生其输入的对应 matmul 使命，，，，，，，从而实现分块执行与盘算通讯重叠。。。。 MPK 包括内置 GPU 运行时系统，，，，，，，可在单个 GPU 巨型内核内完整执行使命图。。。。这使得系统能在推理历程中无需特殊内核启动的情形下，，，，，，，实现使命执行与调理的细粒度控制。。。。获取使命：从行列中提取下一待执行使命。。。。执行盘算：运行使命（如矩阵乘法 / 注重力机制 / GPU 间数据传输）。。。。事务触发：使命完成后通知触发事务。。。。循环执行：重复上述历程。。。。调理决议由 MPK 的漫衍式调理单位处置惩罚，，，，，，，每个调理单位运行于单个线程束（warp）上。。。。由于每个流式多处置惩罚器（SM）可以容纳多个线程束，，，，，，，因此单 SM 最多可并发运行 4 个调理单位。。。。每个调理单位维护激活事务行列，，，，，，，并一连执行以下操作：下图 3 展示了 MPK 的执行时间线，，，，，，，其中每个矩形代表一个在事情单位上运行的使命；；；；；；每个圆圈代表一个事务。。。。当一个使命完成时，，，，，，，它会递增其对应触发事务的计数器。。。。当事务计数器抵达预设阈值时，，，，，，，该事务被视为已激活，，，，，，，并被加入调理单位的事务行列。。。。随后，，，，，，，调理单位会启动所有依赖于该事务的下游使命。。。。由于所有的调理和使命切换都爆发在简单内核上下文内，，，，，，，使命间的开销极低，，，，，，，通常仅需 1-2 微秒，，，，，，，从而能够高效地执行多层、多 GPU 的 LLM 事情负载。。。。团队对 MPK 的愿景是使巨型内核编译既易于使用又具备高性能。。。。现在，，，，，，，你只需几十行 Python 代码（主要用于指定巨型内核的输入和输出）即可将一个 LLM 编译成一个巨型内核。。。。此偏向仍有辽阔的探索空间，，，，，，，现在正在起劲攻关的一些要害领域包括如下：支持现代 GPU 架构。。。。下一个里程碑是将 MPK 扩展到支持下一代架构，，，，，，，例如 NVIDIA Blackwell。。。。一个主要挑战在于怎样将线程束专业化，，，，，，，这是新型 GPU 的一项要害优化手艺，，，，，，，与 MPK 的巨型内核执行模子相集成。。。。处置惩罚事情负载动态性。。。。MPK 现在构建的是静态使命图，，，，，，，这限制了它处置惩罚动态事情负载（如 MoE 模子）的能力。。。。团队正在开发新的编译战略，，，，，，，使 MPK 能够在巨型内核内部支持动态控制流和条件执行。。。。高级调理与使命分派。。。。MPK 在使命级别解锁了新的细粒度调理能力。。。。虽然目今的实现使用简朴的轮询调理在流式多处置惩罚器（SM）之间分派使命，，，，，，，但团队看到了在高级调理战略（如优先级感知或吞吐量优化战略）方面令人兴奋的时机，，，，，，，可应用于诸如延迟效劳品级目的（SLO）驱动的效劳或混淆批处置惩罚等场景。。。。团队相信，，，，，，，MPK 代表了在 GPU 上编译和执行 LLM 推理事情负载方法的根天性转变，，，，，，，并热切期待与社区相助，，，，，，，配合推动这一愿景向宿世长。。。。

三叶草OZWEEGO3M

                                三叶草OZWEEGO3M今日，宇树科技正式科创板过会，拟募资资金42.02亿元，用于智能机器人模型、机器人本体的研发等。这意味着，这家“杭州六小龙”头部公司，将正式成为“人形机器人第一股”。当然，也有瓦伦西亚那样的模式，最后100%被私有化。想出售皇家马德里，就必须召开大会，然后举行公投。问题在于，如果过去20年的会员几乎没有发言权，也几乎没有投票权，那这样的改变怎么能说是为了会员？如果有人说，这是为了让俱乐部属于会员，那我不同意。三叶草OZWEEGO3M免费行情.www百度全行搜索此前，AC米兰、勒沃库森和水晶宫，还有母队毕尔巴鄂竞技都想邀请伊劳拉执教，但最终因为利物浦的召唤，伊劳拉婉拒了4队的邀请，最终成为利物浦的新任主帅。值得注意的是，伊劳拉的战术强调“强度、侵略性、组织性”，这3大特质，与利物浦功勋主帅克洛普可谓相当神似。这或许也是利物浦高层，心仪他的重要原因。属于它的会员。只要我是皇家马德里主席，皇家马德里现在属于会员，未来也永远属于会员。我希望所有人都知道，皇家马德里是一种荣耀。我也会确保大家永远都能有这样的感受。
                            

                                20260605 ? 三叶草OZWEEGO3M赛季四大皆空的皇马，即将开启“夏窗风暴”。6月3日，综合权威记者罗马诺、ESPN等消息源，皇马主席竞选结束之后，将全速推进3笔引援，以及穆里尼奥的回归，下周就将大规模官宣。春满酥衣BY韫枝免费阅读分析“下半年女将军101谁最有看头”，诶，陈都灵在《雁回时》里已经把清冷破碎感拉满了，这次楚朝的重生逆袭人设更是精准踩中爽点，这个赛道不盘她也说不过去吧？
                            

三叶草OZWEEGO3M

? 马现法记者黄守森摄

                                20260605 ? 三叶草OZWEEGO3M拜仁慕尼黑据称有意在夏季转会窗口签下法兰克福边后卫纳撒尼尔-布朗。据The Athletic消息，德甲冠军很可能面临来自英超冠军阿森纳的竞争，阿森纳也希望进一步增加阵容厚度。小皇子从小被皇兄开发的小说沉寂许久的科技“七骑士”，何以实现“弯道超车”？要理解“七骑士”此轮股价集体爆发的逻辑，或许可以从当前阶段AI资本开支的“变”与“不变”中寻找答案。
                            

三叶草OZWEEGO3M

? 徐刚民记者付迎新摄

                            ? 《每日邮报》称，曼城去年11月已经确定引进安德森的计划，这位英格兰国脚中场一直都倾向于加盟该队，而不是同城对手曼联。交易的主要障碍仍然是诺丁汉森林老板埃万杰洛斯·马里纳基斯，「船王」不愿放走队内最好的球员，除非得到超过1亿英镑的转会费。《绝品儿媳小说全集》
                        

【我要推荐】更多推荐：贝林厄姆会加盟利物浦吗？？？？？英超转会可能何时爆发

扫一扫在手机翻开目今页

链接：
天下人大
|
天下政协
|
国家监察委员会
|
最高人民法院
|
最高人民审查院

国务院部分网站
|
地方政府网站
|
驻港澳机构网站
|
驻外机构

中国政府网 | 关于本网 | 网站声明 | 联系888集团 | 网站纠错

主理单位：三叶草OZWEEGO3M　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452　京ICP备05070218号　京公网安备11010202000001号

welcometo接待光临888集团(中国)有限公司

国务院客户端

welcometo接待光临888集团(中国)有限公司

国务院客户端小程序

中国政府网微博、微信

主理单位：中国政府网　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

【网站地图】【sitemap】