研究人员通过控制处理器利用率中的长尾低效，将人工智能训练速度提高了一倍

一个装饰性图像，显示了一个芯片，上面写着缩写 "AI"（人工智能）。

一个新颖的系统利用闲置的计算能力即时训练一个较小的草稿模型，在不影响准确性的情况下大大加快了复杂大型语言模型的强化学习速度。

Chibuike Okpara (translated by DeepL / Ninh Duy), Published 02/28/2026 🇺🇸 🇪🇸 ...

AI Science

开发具有高级编程和多步骤规划能力的大型语言推理模型需要大量的计算资源。在标准强化学习过程中，模型会生成多个潜在答案，以学习最佳响应。这一生成阶段被称为 "推出"（rollout），可耗费总执行时间的 85%。它造成了一个关键瓶颈，其特点是长尾分布，即完成较短响应的处理器闲置，等待其他处理器完成较长的查询。

为了消除这种浪费的停机时间，麻省理工学院的研究人员与业界和学术界的合作者共同开发了一种名为 "驯服长尾"（TLT）的系统。该方法使用一个自适应绘图器模型，在空闲处理器上持续训练。这种轻量级模型可快速猜测大型目标模型的未来输出，然后通过一种称为推测解码的技术同时验证所有猜测。

传统的推测解码依赖于静态绘图仪，在不断更新训练过程中，绘图仪很快就会过时，而 TLT 系统则在训练过程中不断重新调整绘图仪，而且不需要额外的计算成本。集成的自适应推出引擎可进一步优化流程，它能保持一个具有内存效率的预捕获图形池，并为每个新输入批次动态选择最佳解码策略。

对多种推理模型的评估表明，与最先进的系统相比，这种无损解决方案可将端到端的训练速度提高 70-110%。这种方法既能保持原有的准确度水平，又能产生高质量的草稿模型作为免费部署的副产品，为减少开发高级人工智能架构的能源和财政负担提供了一条高效的途径。