谷歌推出 Lumiere 生成式人工智能，通过文本创建更逼真的图像和视频

谷歌推出最新的生成式人工智能 Lumiere，可根据文本创建逼真的视频剪辑。(来源：谷歌研究）

谷歌发布了 Lumiere--利用机器学习生成逼真文本到图像和文本到视频的最新技术。该软件的一项关键创新是能够创建逼真的运动，例如行走，而目前的生成式人工智能很难做到这一点。该软件通过一次性创建所有视频帧来实现这一功能，而不是使用关键帧和训练来学习移动物体应该如何显示。

David Chien (translated by Ninh Duy), Published 01/31/2024 🇺🇸 🇩🇪 ...

谷歌推出了最先进的逼真文本到图像和视频生成人工智能软件 Lumiere。该软件采用新颖的视频帧生成方法，一次性生成所有帧，从而减少了运动误差，大大改进了运动效果。

生成图像的人工智能可根据文本生成图像。实现这一点的关键之一是有大量的在线图像和视频可用于训练。另一个关键是开发出了通过向量将语言中的所有单词相互关联起来的方法。因此，人工智能可以将 "我是 "理解为一对词，或者在一个句子中，"我是 "比 "我单方面 "更有可能。图像创建人工智能，如稳定扩散（Stable Diffusion）将单词与物体图像联系起来。这种人工智能能理解 "王室宅邸 "这个词与 "城堡 "图像的联系比与 "房子 "图像的联系更紧密。

生成视频人工智能扩展了图像人工智能，可根据文本创建视频。Lumiere 竞争对手首先创建关键帧，然后创建中间的帧。这就好比一位动画大师绘制篮球投篮的开头和结尾图像，然后让助手绘制中间的图像。问题是，由于没有正确绘制中间的图像，经常会出现运动错误，因此 Lumiere 通过创建所有视频帧而不创建关键帧，避开了这一问题。此外，Lumiere 经过训练，知道移动物体在不同图像尺寸下的样子，因此其视频效果更佳。

从技术上讲，Lumiere 利用扩散概率模型生成图像，并结合时空 U-网络（一种 U-网络结构，具有时间向上和向下缩放功能，并在通常的图像分辨率缩放基础上增加了注意力区块）。在进行分辨率缩放的同时进行时间缩放，可大大减少计算工作量，而缩放与时间感知、空间超分辨率模型相结合，可生成高分辨率输出。但由于内存限制，仍需要对图像进行帧分割，因此在重叠的帧分割边界上使用了多扩散技术，以帮助减轻时间运动伪影。

Lumiere 可以与其他人工智能相结合，创建更广泛的输出。这包括