888集团

《SHOWTIME!~想要做唱歌的大姐姐》动漫DiffusionOPD：复旦联合通义万相提出扩散模子在线战略蒸馏新范式

2026-06-05 07:17:50 泉源：鲍楠柢

字号：默认大超大 | 打印 |

扩散模子在简单使命上的强化学习已经取得了显著希望，，，，，例如提升文字天生质量、增强构图准确性，，，，，或优化画面美感等。。。。。。。但当这些能力需要同时集成到统一个模子中时，，，，，训练往往会变得十分难题：差别使命之间容易爆发相互滋扰，，，，，训练目的也会变得重大而不稳固。。。。。。。近期，，，，，来自复旦大学与阿里巴巴通义万相的研究团队对此提出了新的思索。。。。。。。他们以为，，，，，多使命强化学习不应被视为一个统一优化问题，，，，，而应该解耦为两个相互自力的历程：单使命的在线战略探索 & 多使命能力整合。。。。。。。 DiffusionOPD 的焦点思绪，，，，，是先针对差别使命划分训练各自的「专家西席」模子；；；；；随后，，，，，再通过在线战略蒸馏，，，，，将这些西席模子的能力统一蒸馏到统一个学生模子中，，，，，实现多使命能力整合。。。。。。。最终，，，，，一个统一的 student model 便能够同时兼顾构图、OCR、美学等多项能力。。。。。。。联合多使命 RL (Joint Multi-Task Optimization) ：使用现有的 RL 算规则如 DiffusionNFT, GRPO 去联合优化多个使命。。。。。。。这种范式会撞上两个问题： 1 奖励冲突：差别使命的优化?神往往保存相互滋扰；；；；； 2 使命失衡：简朴使命会主导训练历程，，，，，导致重大使命难以充分学习。。。。。。。级联 RL (Cascade RL)：按阶段依次训练差别使命。。。。。。。虽然能够缓解使命冲突，，，，，可是训练流程重大，，，，，需要划分调解各阶段的超参数与训练战略，，，，，并且容易爆发灾难性遗忘，，，，，后续使命训练的时间会削弱已有能力。。。。。。。图 1：（a）相比所有多使命强化学习基线要领，，，，，DiffusionOPD 展现出显著更快的收敛速率以及更高的性能上限。。。。。。。（b）在包括 GenEval、OCR 与美学在内的多个使命领域中，，，，，DiffusionOPD 均优于所有基线要领。。。。。。。 DiffusionOPD 给出的谜底?脆利落：多使命强化学习不应被视为一个统一优化问题，，，，，而应该解耦为两个相互自力的历程：单使命的在线战略探索 & 多使命能力整合。。。。。。。 Stage 1?单使命?师独?训练：针对差别使命（如 GenEval、OCR、Aesthetic 等），，，，，划分使用现有的 diffusion RL 要领训练对应的「专家西席」模子。。。。。。。其中，，，，，GenEval 使命接纳 DiffusionNFT，，，，，OCR 与美学使命接纳 GRPO-Guard。。。。。。。由于每个西席仅认真简单使命，，，，，因此能够阻止跨使命滋扰。。。。。。。Stage 2?在线战略蒸馏多使命能力到学?模子：随后，，，，，从一个预训练扩散模子初始化统一的学生模子，，，，，并通过在线战略蒸馏整合多使命能力。。。。。。。在训练历程中，，，，，学生模子针对差别使命，，，，，基于自身战略天生去噪轨迹；；；；；随后，，，，，在学生天生的每个去噪状态上，，，，，由对应使命的西席模子提供监视信号。。。。。。。因此，，，，，学生模子无需重新对所有使命举行从零探索，，，，，而是能够直接学习各使命西席的战略与能力，，，，，从而实现高效的多使命能力融合。。。。。。。在 LLM 中，，，，，OPD 的做法很自然：学生模子先凭证自己的战略天生 token，，，，，随后西席模子在学生会见到的每一个 token 状态上提供监视。。。。。。。由于语言模子自己是离散 token 漫衍，，，，，因此可以直接对每一步的 token distribution 做 KL 蒸馏。。。。。。。因此作者首先把 diffusion 的去噪历程重新视作一个 continuous-state Markov chain（一连状态马尔可夫链）。。。。。。。在这个视角下，，，，，每一步去噪 transition 都对应一个 Gaussian transition kernel；；；；；学生模子和西席模子划分界说自己的 transition distribution： DiffusionOPD 论文里严酷证实晰直接闭式 KL 与 PPO -style policy gradient在期望意义下梯度完全相等。。。。。。。但 PPO 的梯度里会多出一项 score-function 项，，，，，它与高斯噪声成正比，，，，，期望为零但方差不为零。。。。。。。也就是说，，，，，PPO 预计自然比闭式 KL 更「吵」。。。。。。。图 2：与多使命强化学习要领以及单使命西席模子的定性比照效果。。。。。。。每个案例分为两行展示：第一行从左到右依次为 DiffusionOPD（本文要领）、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT；；；；；第二行从左到右依次为输入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的天生效果。。。。。。。作者还做了一组很有意义的比照实验：牢靠统一批专家先生，，，，，划分用 DiffusionOPD、DMD、TDM、SFT 蒸馏到统一个学生，，，，，控制变量后比照谁更适合「多使命能力整合」这个场景。。。。。。。图 6：关于损失函数形式与采样器噪声水平的消融实验。。。。。。。当噪声水平设为 0 时，，，，，SDE sampler 将退化为 ODE sampler。。。。。。。实验效果批注，，，，，PPO-style policy gradient 的体现逊于同样 noise level 的 closed-form KL objective；；；；；别的，，，，，更低的噪声水平能够带来更快的收敛速率和更高的性能上限。。。。。。。

《SHOWTIME!~想要做唱歌的大姐姐》动漫

                                《SHOWTIME!~想要做唱歌的大姐姐》动漫2026年6月4日男篮热身赛长沙站，中国男篮81-82惜败FMP拉德尼基。这场比赛男篮打得还不错，基本上全场比赛都在保持比分上的优势，这让球队维持优势。可惜最后五分钟进攻端出现哑火，还被对手绝杀。赛后迎来3喜1忧。对于自己的状态，加维表示：“每名球员的情况都不同，我只能谈我自己。我认为我现在正处在一个不错的阶段，在巴萨连续踢了很多高质量的比赛，最近两场也都打满了全场。我比以往任何时候都更有动力，也更有渴望。”《SHOWTIME!~想要做唱歌的大姐姐》动漫《AAAAAAAAAAAAXX体现什么-百度》全球AI基础设施扩张浪潮下，数据中心选址正日益兼顾电力供应与区域网络连通性。南澳州凭借其可再生能源优势，成为IREN拓展亚太版图的关键落子。该州电网已设定到2027年实现100%净可再生能源目标，对追求绿色算力的AI企业具备天然吸引力。6月5日凌晨，法网女单半决赛赫瓦林斯卡对阵施耐德。本场比赛资格赛突围的赫瓦林斯卡，延续了自己的黑马之旅，她直落两盘将施耐德淘汰出局，职业生涯首次闯入大满贯决赛，成为了法网历史上首位闯入决赛的资格赛选手。
                            

                                20260605 ? 《SHOWTIME!~想要做唱歌的大姐姐》动漫（北京，2026年6月2日） 在具身智能浪潮席卷全球的今天，绝大多数公司选择了一条“自上而下”的路径：用大模型理解任务，用海量数据训练端到端策略，试图让机器人模仿人类工作。然而，一家名为橡木果机器人（Acorn Robot）的公司，却走出了一条截然不同的道路——自下而上，从底层本能出发，让机器人先获取操作本能，继而在与物理世界的交互中自主涌现操作智能。《影戏《儿媳忠于本能》演员表》这次的酷睿 Ultra X 300 系列移动端处理器所搭载的 Intel Arc B390 核显图形性能提升非常大，尤其是支持了 XeSS 3 图形技术和最高 4 倍帧生成。因此虽然华硕破晓 Ultra 是轻薄本定位，但对于它在游戏和生产力方面的表现，我们也可以期待一下。
                            

《SHOWTIME!~想要做唱歌的大姐姐》动漫

? 王宝全记者杨月磊摄

                                20260605 ? 《SHOWTIME!~想要做唱歌的大姐姐》动漫弗洛伦蒂诺表示：“穆里尼奥和科纳特会来，现在我再提一下邓弗里斯。他是一名非常优秀的右后卫。但我们还会在其他位置引进优秀球员。很快，也就是周二，我会向一家欧冠俱乐部报价一名球员，这将是皇马历史上为一名球员支付的最高转会费，至少1.5亿欧元。不是奥利塞，他是个很好的球员，但不是他。也不是多库，不是哈兰德，也不是凯恩。他踢的是中前场位置，而且不来自英超。他是一名真正的银河战舰级别球员。不过我们会先和俱乐部谈，不会像某些人那样做事。我的目标就是让球迷重新感到兴奋。为了做到这一点，我曾经签下齐达内、菲戈、贝克汉姆、C罗、卡卡……这名球员也属于同一个级别。”《大学女生2》我一直这么说，对我来说，他是最好的。他让所有球员都拧成一股绳，不只是那些上场的，更难能可贵的是，连那些没上场的球员也一样。我自己也有这种感觉，有时候我没上场，但我照样为队友、为球队感到高兴，这可不是每个人都能做到的。在这方面，他真是个大佬。
                            

《SHOWTIME!~想要做唱歌的大姐姐》动漫

? 刘秀英记者刘培明摄

                            ? 为自救，GoPro已启动多项措施：全球裁员约23%，聘请顾问评估出售、合并等战略选项，同时尝试拓展国防、航天等新领域，并紧急寻求融资以避免债务违约。父女三人同乐女儿红小说原著叫什么
                        

【我要推荐】更多推荐：妻子穿几十元T恤，，，，，丈夫全身名牌做医美车内常备上万现金，，，，，却不肯出2500生涯费！遭多年家暴，，，，，女子起诉仳离，，，，，发明1400万元已被转走

扫一扫在手机翻开目今页

链接：
天下人大
|
天下政协
|
国家监察委员会
|
最高人民法院
|
最高人民审查院

国务院部分网站
|
地方政府网站
|
驻港澳机构网站
|
驻外机构

中国政府网 | 关于本网 | 网站声明 | 联系888集团 | 网站纠错

主理单位：《SHOWTIME!~想要做唱歌的大姐姐》动漫　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452　京ICP备05070218号　京公网安备11010202000001号

welcometo接待光临888集团(中国)有限公司

国务院客户端

welcometo接待光临888集团(中国)有限公司

国务院客户端小程序

中国政府网微博、微信

主理单位：中国政府网　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

【网站地图】【sitemap】