Notebookcheck Logo

谷歌推出 Lumiere 生成式人工智能,通过文本创建更逼真的图像和视频

谷歌推出最新的生成式人工智能 Lumiere,可根据文本创建逼真的视频剪辑。(来源:谷歌研究)
谷歌推出最新的生成式人工智能 Lumiere,可根据文本创建逼真的视频剪辑。(来源:谷歌研究)
谷歌发布了 Lumiere--利用机器学习生成逼真文本到图像和文本到视频的最新技术。该软件的一项关键创新是能够创建逼真的运动,例如行走,而目前的生成式人工智能很难做到这一点。该软件通过一次性创建所有视频帧来实现这一功能,而不是使用关键帧和训练来学习移动物体应该如何显示。
AI

谷歌推出了最先进的逼真文本到图像和视频生成人工智能软件 Lumiere。该软件采用新颖的视频帧生成方法,一次性生成所有帧,从而减少了运动误差,大大改进了运动效果。

生成图像的人工智能可根据文本生成图像。实现这一点的关键之一是有大量的在线图像和视频可用于训练。另一个关键是开发出了通过向量将语言中的所有单词相互关联起来的方法。因此,人工智能可以将 "我是 "理解为一对词,或者在一个句子中,"我是 "比 "我单方面 "更有可能。图像创建人工智能,如稳定扩散(Stable Diffusion)将单词与物体图像联系起来。这种人工智能能理解 "王室宅邸 "这个词与 "城堡 "图像的联系比与 "房子 "图像的联系更紧密。

生成视频人工智能扩展了图像人工智能,可根据文本创建视频。Lumiere 竞争对手首先创建关键帧,然后创建中间的帧。这就好比一位动画大师绘制篮球投篮的开头和结尾图像,然后让助手绘制中间的图像。问题是,由于没有正确绘制中间的图像,经常会出现运动错误,因此 Lumiere 通过创建所有视频帧而不创建关键帧,避开了这一问题。此外,Lumiere 经过训练,知道移动物体在不同图像尺寸下的样子,因此其视频效果更佳。

从技术上讲,Lumiere 利用扩散概率模型生成图像,并结合时空 U-网络(一种 U-网络结构,具有时间向上和向下缩放功能,并在通常的图像分辨率缩放基础上增加了注意力区块)。在进行分辨率缩放的同时进行时间缩放,可大大减少计算工作量,而缩放与时间感知、空间超分辨率模型相结合,可生成高分辨率输出。但由于内存限制,仍需要对图像进行帧分割,因此在重叠的帧分割边界上使用了多扩散技术,以帮助减轻时间运动伪影。

Lumiere 可以与其他人工智能相结合,创建更广泛的输出。这包括

  • 电影胶片--对图像的一个部分进行动画处理
  • 内画--视频中的一个物体被另一个物体取代
  • 风格化生成--以另一种艺术风格重新创建外观
  • 图像到视频 - 将所需图像制作成动画
  • 视频到视频--以另一种艺术风格重新创建视频

视频长度限制为 5 秒,无法创建视频转换和多角度拍摄。有兴趣在台式电脑上尝试生成式人工智能的读者应该升级到功能强大的显卡(如亚马逊上的这款),以便在训练过程中获得最佳性能。

Lumiere 可以从文本中创建图像和视频,可以根据另一种艺术的风格创建图像和视频,甚至可以替换物体。(资料来源:谷歌研究)
Lumiere 可以从文本中创建图像和视频,可以根据另一种艺术的风格创建图像和视频,甚至可以替换物体。(资料来源:谷歌研究)
Lumiere 可以将图像的一部分制作成动画,其输出结果可以很容易地输入到其他人工智能中。(资料来源:谷歌研究)
Lumiere 可以将图像的一部分制作成动画,其输出结果可以很容易地输入到其他人工智能中。(资料来源:谷歌研究)
Please share our article, every link counts!
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2024 01 > 谷歌推出 Lumiere 生成式人工智能,通过文本创建更逼真的图像和视频
David Chien, 2024-01-31 (Update: 2024-01-31)