Notebookcheck Logo
作者在虚构的 Notebookcheck 办公室(图片来源:由 Vidu.com 生成)

由人工智能生成人物和场景一致的视频?Vidu.com 实践测试

人工智能问题。

Vidu.com 声称其人工智能可以生成具有一致角色和环境的视频。这意味着您可以用相同的 "演员 "将多个序列串联起来,并有可能制作出整部(短)电影。但它真的有效吗?我们对它进行了测试。
Christian Hintze (translated by DeepL / Ninh Duy) Published 🇺🇸 🇩🇪 ...
AI

结论--潜力巨大,但尚未实现

其潜力(和风险)令人印象深刻。毫无疑问,人工智能不仅将重塑内容创作,还将重塑电影和游戏产业。拥有一致的角色、设置和环境,是让人工智能视频生成器超越新奇用途而变得实用的重要一步。

图片来源:Vidu.com 上的截图
图片来源:Vidu.com 上的截图

但现在,它还没有达到那个境界。如果一个人保持原样(假设他真的保持原样),但却能穿过固体物体,突然复制,或者一只手长出六根手指,那又有什么意义呢?

此时此刻 Vidu.com更像是一个玩具。它很有趣,但对于电影、广告或类似领域的专业用途来说,这项技术还不够可靠。故障实在太多了。

Pros

+ 有趣的视频沙盒
+ 可以产生令人印象深刻的视觉效果
+ 免费用于早期实验

Cons

- 一致性不如预期
- 参考图像可能失真
- 错误太多

定价和可用性

任何人都可以尝试 Vidu.com免费试用。该系统以信用点数为基础。新用户可获得一些启动点数,通过某些操作可获得更多点数。

此外还有包月和包年的订阅选项。

订阅选项和定价(图片来源:Vidu.com 截图)
订阅选项和定价(图片来源:Vidu.com 截图)
每日登录可获得 5 点积分(图片来源:Vidu.com 截图)
每日登录可获得 5 点积分(图片来源:Vidu.com 截图)
您可以获得更多积分(图片来源:Vidu.com 上的截图)
您可以获得更多积分(图片来源:Vidu.com 上的截图)

尽管批评意见不无道理,但我们还是发现人工智能在这一领域的魅力。但是,人工智能生成的图像质量参差不齐:一方面,你可以直接通过想象力获得非常细致的环境。而另一方面,人工智能生成的人却经常面无表情地盯着太空,或者以奇怪的慢动作移动。

因此,我们给新的人工智能视频生成器 Vidu.com亲自体验了一把。开发者非常友好地为我们的账户添加了 500 个信用点数,以供测试。该平台的旗舰机型 Vidu Q1 可以在单个视频序列中处理多达七个参考图像。缺失元素可通过文本提示生成。

参考图片和视频看起来已经相当令人兴奋(图片来源:Vidu.com 上的截图)
参考图片和视频看起来已经相当令人兴奋(图片来源:Vidu.com 上的截图)
众多示例视频之一(图片来源:Vidu.com 截图)
众多示例视频之一(图片来源:Vidu.com 截图)

您能用 Vidu 做什么?

左侧边栏的工具(图片来源:Vidu.com 截图)
左侧边栏的工具(图片来源:Vidu.com 截图)

通过 Vidu,您可以使用这些工具生成人工智能视频:

  1. 文本到视频:输入一个提示,描述视频中应该发生的事情
  2. 图像到视频:从单张图片生成视频。更酷的是:设置起始帧和结束帧,Vidu 会填充过渡效果
  3. 参考视频:最令人兴奋的功能。上传人物、地点或物体的图像,人工智能会尽量使它们在整个视频中保持一致。

视频输出为全高清、16:9,可选智能手机格式。视频甚至可以放大,例如放大到 4K。

亲身体验--学习曲线、精确提示

我们雄心勃勃的计划

  • 场景 1:一名 Notebookcheck 编辑站在办公室里测试一台笔记本电脑。
  • 场景二:他输入了一个平庸的评价。
  • 场景三:镜头切换到另一间办公室,西装革履的男子正在观看编辑输入差评的监控录像。
  • 场景四:其中一名西装男按下报警按钮。
  • 场景五:特警队出动

我们总共绘制了 10 个大致场景。

1.现场编辑测试笔记本电脑

我们使用了一张我们一位编辑的旧照片作为角色的参考,并用一张办公室照片作为背景。我们添加了 Notebookcheck 徽标、一台笔记本电脑和一个虚构的 PC 品牌徽标("Lavani")。然后我们给出了以下提示:

我们的参考图片(图片来源:Vidu.com 截图)
我们的参考图片(图片来源:Vidu.com 截图)
我们的 1. 提示(图片来源:Vidu.com 上的截图)
我们的 1. 提示(图片来源:Vidu.com 上的截图)
选择机型和分辨率(图片来源:Vidu.com 截图)
选择机型和分辨率(图片来源:Vidu.com 截图)

简而言之:我们的编辑(图片 1)应该站在办公室里(图片 2),测试一台笔记本电脑。背景砖墙上应出现 Notebookcheck 徽标(图片 3)。

使用 Vidu Q1 模型渲染一个 5 秒钟的片段只需 1-2 分钟,花费 15-20 个信用点。结果如何?

我们对以下问题不太满意:

  1. 为什么我们角色的发型与参考照片不一致?在后面的场景中会保持一致吗?
  2. 为什么我们的参考徽标变成了 "notobochech"?
  3. 为什么没有采用我们要求的 "肩上 "拍摄角度?
  4. 为什么剪辑师一直对着麦克风说话?

对于电影制片人来说,这使得他们很难获得他们所描述的准确的摄影角度和设置。

错误的标志,错误的发型(图片来源:Vidu.com 上的截图)
错误的标志,错误的发型(图片来源:Vidu.com 上的截图)

我们对提示进行了调整,但增加的细节越多,问题就越多。现在发型是正确的,但屏幕上突然出现了两个双胞胎编辑。然后,我们的编辑直接穿过了一张桌子。

人工智能也很难处理前景的位置。尽管人工智能一再提示,但它始终无法拍摄出所要求的肩上镜头。总之,我们的文本输入没有得到准确的跟进。

图像转视频

我们搁置了雄心勃勃的短片构想,尝试了 "图像到视频 "和两个参考图像之间的转换。

第一种方法效果不错。例如,我们将《魔兽争霸 3》中伊利丹的形象转换成一个短片。镜头拉近到恶魔猎手皱眉的表情。出于版权考虑,我们不会在此展示图片或视频。

最后,我们测试了两个画面之间的过渡:

  1. 伊利丹站在一块岩石上。
  2. 伊利丹落地。

我们的想法是:伊利丹应该从岩石上跳下(图片 1),然后落地(图片 2)。但在生成的视频中,伊利丹在两者之间变成了一个黑色的、像鸟一样的影子。完全无法使用。

不管怎么跳,都已经完全不像伊利丹了(图片来源:Vidu.com 上的截图)。
不管怎么跳,都已经完全不像伊利丹了(图片来源:Vidu.com 上的截图)。

摘要

Vidu.com 视频生成器(图片来源:Vidu.com 截图)
Vidu.com 视频生成器(图片来源:Vidu.com 截图)

使用 Vidu.com 生成视频非常简单。但要获得您想要的准确场景、摄像机角度和动作却并非易事。提示没有被严格遵守,参考图像会失真(徽标、发型),物体失去物理一致性(穿过办公桌),或出现其他故障(重复编辑器)。

总之,这有点令人沮丧,而且目前几乎不可能根据您的设想制作出真正一致的视频。

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 评测 > 由人工智能生成人物和场景一致的视频?Vidu.com 实践测试
Christian Hintze, 2025-09-28 (Update: 2025-09-28)