研究人员通过控制处理器利用率中的长尾低效,将人工智能训练速度提高了一倍

开发具有高级编程和多步骤规划能力的大型语言推理模型需要大量的计算资源。在标准强化学习过程中,模型会生成多个潜在答案,以学习最佳响应。这一生成阶段被称为 "推出"(rollout),可耗费总执行时间的 85%。它造成了一个关键瓶颈,其特点是长尾分布,即完成较短响应的处理器闲置,等待其他处理器完成较长的查询。
为了消除这种浪费的停机时间,麻省理工学院的研究人员与业界和学术界的合作者共同开发了一种名为 "驯服长尾"(TLT)的系统。该方法使用一个自适应绘图器模型,在空闲处理器上持续训练。这种轻量级模型可快速猜测大型目标模型的未来输出,然后通过一种称为推测解码的技术同时验证所有猜测。
传统的推测解码依赖于静态绘图仪,在不断更新训练过程中,绘图仪很快就会过时,而 TLT 系统则在训练过程中不断重新调整绘图仪,而且不需要额外的计算成本。集成的自适应推出引擎可进一步优化流程,它能保持一个具有内存效率的预捕获图形池,并为每个新输入批次动态选择最佳解码策略。
对多种推理模型的评估表明,与最先进的系统相比,这种无损解决方案可将端到端的训练速度提高 70-110%。这种方法既能保持原有的准确度水平,又能产生高质量的草稿模型作为免费部署的副产品,为减少开发高级人工智能架构的能源和财政负担提供了一条高效的途径。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名








