Notebookcheck Logo

新的开源人工智能工具可生成更长、更一致的视频

人工智能生成的长颈鹿图像
ⓘ Gemini
人工智能生成的长颈鹿图像
瑞士洛桑联邦理工学院(École polytechnique fédérale de Lausanne)的研究人员开发了一种名为 "稳定视频无限"(SVI)的新系统,用于解决视频生成模型中的漂移问题。
AI Science Open Source

如果你使用过视频生成模型,你会发现有一点是一致的--它们仅限于短片,通常在 5 到 20 秒之间。这种限制存在的原因是一种叫做 "漂移 "的东西。漂移会导致场景和人物一帧一帧地失去特征,随着时间的推移产生不连贯的输出。

现在,为了解决这个问题,EPFL 交通视觉智能(VITA)实验室的研究人员开发出了一种名为 "错误回收再训练 "的新型训练方法。这种方法不是丢弃生成过程中自然出现的故障和畸形,而是有意将它们反馈到模型中。

亚历山大-阿拉希(Alexandre Alahi)教授将这一过程比作 "在动荡的天气而非晴朗的天空中训练飞行员"。通过从自己的错误中学习,人工智能变得足够强大,能够在不可避免地出现错误时稳定自己,而不是陷入随机状态。

这种方法为新的稳定视频无限(SVI)系统提供了动力。目前的模型往往在 30 秒后就会崩溃,而 SVI 则不同,它可以生成持续数分钟或更长时间的连贯、高质量视频。该系统已在科技界掀起波澜;其在GitHub 上的开源代码上的开源代码已获得 2000 多颗星,该研究已被接受在 2026 年国际学习表征会议(ICLR)上发表。

该团队还首次推出了 LayerSync,这是一种辅助方法,可以让人工智能在视频、图像和声音生成过程中修正其内部逻辑。这些工具结合在一起,有望设计出更好的自主系统,并释放出真正的长格式生成媒体的潜力。

资料来源

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2026 02 > 新的开源人工智能工具可生成更长、更一致的视频
Chibuike Okpara, 2026-02-10 (Update: 2026-02-10)