克日,,,,,,CMU 助理教授贾志豪(Zhihao Jia)团队立异玩法,,,,,,推出了一个名为「Mirage Persistent Kernel(MPK)」的编译器,,,,,,可以自动将 LLM 转化为优化的巨型内核(megakernel),,,,,,从而将 LLM 推理延迟降低 1.2 到 6.7 倍。。。
在这种设计中,,,,,,系统仅启动一个 GPU 内核来执行整个模子 —— 从逐层盘算到 GPU 间通讯 —— 整个历程无需中止。。。这种要领提供了以下几个要害的性能优势:
消除内核启动开销:通过阻止重复的内核挪用,,,,,,纵然是在多 GPU 情形下,,,,,,也能消除内核启动开销;;;;;实现跨层软件 pipeline 允许内核在盘算目今层的同时,,,,,,最先为下一层加载数据;;;;;重叠盘算与通讯:由于巨型内核可以同时执行盘算操作和 GPU 间通讯,,,,,,从而隐藏通讯延迟。。。
现有的高级 ML 框架 —— 如 PyTorch、Triton 和 TVM,,,,,,它们自己并不支持端到端巨型内核天生。。。别的,,,,,,现代 LLM 系统由州差别的专用内核库构建而成:用于通讯的 NCCL 或 NVSHMEM,,,,,,用于高效注重力盘算的 FlashInfer 或 FlashAttention,,,,,,以及用于自界说盘算的 CUDA 或 Triton。。。
那么能否通过编译自动化这个历程呢???受到这个问题的启发,,,,,,来自 CMU、华盛顿大学、加州大学伯克利分校、英伟达和清华大学的团队开发出了 MPK—— 一个编译器和运行时系统,,,,,,它能自动将多 GPU 的 LLM 推理转换为高性能的巨型内核。。。MPK 释放了端到端 GPU 融合的效能优势,,,,,,同时只需要开发者支付极小的手动起劲。。。
MPK 的一个要害优势在于:通过消除内核启动开销,,,,,,并最洪流平地重叠跨层的盘算、数据加载和 GPU 间通讯,,,,,,实现了极低的 LLM 推理延迟。。。
除了单 GPU 优化,,,,,,MPK 还将盘算与 GPU 间通讯融合进一个简单的巨型内核。。。 这种设计使得 MPK 能够最洪流平地重叠盘算与通讯。。。因此,,,,,,MPK 相关于目今系统的性能提升随着 GPU 数目的增添而增大,,,,,,使其在多 GPU 安排场景下尤为高效。。。
Part 1:MPK 编译器,,,,,,其将 LLM 的盘算图转化为优化的使命图;;;;;Part 2:MPK 运行时系统,,,,,,该系统在单个巨型内核内执行使命图,,,,,,以实现高吞吐量与低延迟。。。
LLM 的盘算历程通常体现为盘算图,,,,,,其中每个节点对应一个盘算算子(如矩阵乘法、注重力机制)或荟萃通讯原语(如 all-reduce),,,,,,边体现算子间的数据依赖关系。。。现有系统通常为每个算子启动自力的 GPU 内核。。。
然而,,,,,,这种「单算子单内核」的执行模子难以实现 pipeline 优化,,,,,,由于依赖关系是在整个内核的粗粒度层面强制执行的,,,,,,而非现实数据单位层面。。。
典范案例如矩阵乘法(matmul)后接 all-reduce 操作:现有系统中,,,,,,all-reduce 内核必需期待整个 matmul 内核完成。。。而现实上,,,,,,all-reduce 的每个数据分块仅依赖 matmul 输出的局部效果。。。这种逻辑依赖与现实依赖的错配,,,,,,严重限制了盘算与通讯的重叠潜力。。。
下图 2 展示了 MPK 编译器将 PyTorch 界说的 LLM 盘算图转化为优化细粒度使命图,,,,,,最大化袒露并行性。。。右侧展示次优计划 —— 其引入不须要的数据依赖与全局屏障,,,,,,导致跨层流水线优化时机受限。。。
为相识决此问题,,,,,,MPK 引入的编译器可将 LLM 盘算图自动转化为细粒度使命图。。。该使命图在子内核级别显式捕获依赖关系,,,,,,实现更激进的跨层流水线优化。。。
使命(矩形体现),,,,,,代表分派给单个 GPU 流式多处置惩罚器(SM)的盘算 / 通讯单位。。。事务(圆形体现),,,,,,体现使命间的同步点。。。触发机制,,,,,,每个使命发出指向触发事务的边,,,,,,该事务在关联使命所有完成后激活。。。依赖机制,,,,,,每个使命吸收来自依赖事务的边,,,,,,批注事务激活后使命连忙启动。。。
使命图使 MPK 能够掘客盘算图中无法实现的 pipeline 优化时机。。。例如,,,,,,MPK 可以构建优化使命图 —— 其中每个 all-reduce 使命仅依赖于天生其输入的对应 matmul 使命,,,,,,从而实现分块执行与盘算通讯重叠。。。
MPK 包括内置 GPU 运行时系统,,,,,,可在单个 GPU 巨型内核内完整执行使命图。。。这使得系统能在推理历程中无需特殊内核启动的情形下,,,,,,实现使命执行与调理的细粒度控制。。。
获取使命:从行列中提取下一待执行使命。。。执行盘算:运行使命(如矩阵乘法 / 注重力机制 / GPU 间数据传输)。。。事务触发:使命完成后通知触发事务。。。循环执行:重复上述历程。。。
调理决议由 MPK 的漫衍式调理单位处置惩罚,,,,,,每个调理单位运行于单个线程束(warp)上。。。由于每个流式多处置惩罚器(SM)可以容纳多个线程束,,,,,,因此单 SM 最多可并发运行 4 个调理单位。。。每个调理单位维护激活事务行列,,,,,,并一连执行以下操作:
下图 3 展示了 MPK 的执行时间线,,,,,,其中每个矩形代表一个在事情单位上运行的使命;;;;;每个圆圈代表一个事务。。。当一个使命完成时,,,,,,它会递增其对应触发事务的计数器。。。当事务计数器抵达预设阈值时,,,,,,该事务被视为已激活,,,,,,并被加入调理单位的事务行列。。。随后,,,,,,调理单位会启动所有依赖于该事务的下游使命。。。
由于所有的调理和使命切换都爆发在简单内核上下文内,,,,,,使命间的开销极低,,,,,,通常仅需 1-2 微秒,,,,,,从而能够高效地执行多层、多 GPU 的 LLM 事情负载。。。
团队对 MPK 的愿景是使巨型内核编译既易于使用又具备高性能。。。现在,,,,,,你只需几十行 Python 代码(主要用于指定巨型内核的输入和输出)即可将一个 LLM 编译成一个巨型内核。。。此偏向仍有辽阔的探索空间,,,,,,现在正在起劲攻关的一些要害领域包括如下:
支持现代 GPU 架构。。。下一个里程碑是将 MPK 扩展到支持下一代架构,,,,,,例如 NVIDIA Blackwell。。。一个主要挑战在于怎样将线程束专业化,,,,,,这是新型 GPU 的一项要害优化手艺,,,,,,与 MPK 的巨型内核执行模子相集成。。。处置惩罚事情负载动态性。。。MPK 现在构建的是静态使命图,,,,,,这限制了它处置惩罚动态事情负载(如 MoE 模子)的能力。。。团队正在开发新的编译战略,,,,,,使 MPK 能够在巨型内核内部支持动态控制流和条件执行。。。高级调理与使命分派。。。MPK 在使命级别解锁了新的细粒度调理能力。。。虽然目今的实现使用简朴的轮询调理在流式多处置惩罚器(SM)之间分派使命,,,,,,但团队看到了在高级调理战略(如优先级感知或吞吐量优化战略)方面令人兴奋的时机,,,,,,可应用于诸如延迟效劳品级目的(SLO)驱动的效劳或混淆批处置惩罚等场景。。。
团队相信,,,,,,MPK 代表了在 GPU 上编译和执行 LLM 推理事情负载方法的根天性转变,,,,,,并热切期待与社区相助,,,,,,配合推动这一愿景向宿世长。。。
《无爱不欢雪小禅TXT》这个方向有其内在逻辑:在AI时代,用户与软件的交互方式会从“操作界面”转变为“表达意图”,谁掌握了意图的入口,谁就掌握了企业生产力的控制权。以“操作系统级野心”直指微软,战略格局不可谓不大。除此之外,我也要感谢大家。在过去这两周时间里,你们成为了扩音器,把我们的信息传递给了会员们。希望明天在竞选活动最终收官时,还能够见到大家。《无爱不欢雪小禅TXT》《蜜桃网》他同时表示,AI是一个长期游戏,下半场才刚刚开始,未来也会更加多元,“我不认为ChatGPT和Claude Code会是唯一的super App,我觉得肯定会有源源不断新的机会诞生,可能今天就像是70年代PC刚刚产生的时候,还有很多事情需要做。”这就形成了一个相互咬合的困局:你需要快速迭代来提升模型质量,但快速迭代意味着频繁搬运数据,而频繁搬运数据在公有云上的账单会把你压垮。
20260609 ? 《无爱不欢雪小禅TXT》你经历了意大利各级青年国家队的全部成长道路,看到U17国家队如今闯进决赛,你有多高兴?而且如果我没记错的话,博尼法齐和达托洛也和你一样来自罗马青训。这些青年队取得的成绩,会不会进一步激励你们?毕竟U21国家队还有欧洲杯和奥运会资格赛的目标。 第二个问题,因为家庭原因,我想你应该也关注网球,今天对于意大利网球来说似乎是特别的一天,我想你父亲今天可能会比关注你更关注比赛,因为有两位意大利球员进入了法网半决赛。你怎么看待如今意大利体育整体取得的这些成绩?我的漂亮姐姐遮光贴销售商家可能被认定具有明显的帮助侵权故意,面临连带责任风险。遮光贴的用途就是消除拍摄提示灯以实现隐蔽拍摄,具有高度的违法针对性。商家明知仍予以出售,依法应与实际偷拍者承担连带责任。若网络平台未采取必要合理措施,也可能就损害扩大部分承担责任。
20260609 ? 《无爱不欢雪小禅TXT》比如范丞丞要郑恺撕名牌,结果李晨提醒了一句"恺哥可是初代跑男",范丞丞当场就原地滑跪,对着郑恺拱手道歉:"忘了忘了,恺哥也是初代跑男"韩剧《美妙人生》人民财讯6月5日电,【摘要】商务部:美滥用出口管制冲击全球半导体产供链稳定。外交部:希望欧方客观理性看待中欧经贸关系。工信部:组织开展6G创新发展部省协同试点专项行动。上交所向券商下发通知,强化交易业务单元管理。小红书启动金融专业号治理专项行动,处置非法诱导跨境投资等违规内容。深圳:要在新型基础设施规划建设上谋项目强投资,加快算力网、新一代通信网等建设。富途宣布6月12日起对中国境内服务调整,三家跨境券商均已落地集中整治细则。特朗普称若达成协议,不排除与伊朗最高领袖会晤。