新的开源人工智能工具可生成更长、更一致的视频

ⓘ Gemini

人工智能生成的长颈鹿图像

瑞士洛桑联邦理工学院（École polytechnique fédérale de Lausanne）的研究人员开发了一种名为 "稳定视频无限"（SVI）的新系统，用于解决视频生成模型中的漂移问题。

Chibuike Okpara (translated by DeepL / Ninh Duy), Published 02/10/2026 🇺🇸 🇪🇸 ...

AI Science Open Source

如果你使用过视频生成模型，你会发现有一点是一致的--它们仅限于短片，通常在 5 到 20 秒之间。这种限制存在的原因是一种叫做 "漂移 "的东西。漂移会导致场景和人物一帧一帧地失去特征，随着时间的推移产生不连贯的输出。

现在，为了解决这个问题，EPFL 交通视觉智能（VITA）实验室的研究人员开发出了一种名为 "错误回收再训练 "的新型训练方法。这种方法不是丢弃生成过程中自然出现的故障和畸形，而是有意将它们反馈到模型中。

亚历山大-阿拉希（Alexandre Alahi）教授将这一过程比作 "在动荡的天气而非晴朗的天空中训练飞行员"。通过从自己的错误中学习，人工智能变得足够强大，能够在不可避免地出现错误时稳定自己，而不是陷入随机状态。

这种方法为新的稳定视频无限（SVI）系统提供了动力。目前的模型往往在 30 秒后就会崩溃，而 SVI 则不同，它可以生成持续数分钟或更长时间的连贯、高质量视频。该系统已在科技界掀起波澜；其在GitHub 上的开源代码上的开源代码已获得 2000 多颗星，该研究已被接受在 2026 年国际学习表征会议（ICLR）上发表。

该团队还首次推出了 LayerSync，这是一种辅助方法，可以让人工智能在视频、图像和声音生成过程中修正其内部逻辑。这些工具结合在一起，有望设计出更好的自主系统，并释放出真正的长格式生成媒体的潜力。