Meta 最近发布了Meta Movie Gen ,这在文本到视频生成领域是一件意义重大但又有些出乎意料的事件——我认为在视频生成方面,Meta 并没有引起很多人的关注。
考虑到竞争环境, OpenAI等几家知名公司已经在开发像Sora这样的强大模型,Meta 的发布值得关注。
该模型在各种任务中均表现良好,其质量优于或匹敌Runway Gen3、LumaLabs 等知名公司的产品,尤其是 OpenAI 的 Sora。
在这篇博客中,我将介绍 Meta Movie Gen 是什么、它如何工作、它的功能和局限性,以及使用它的安全注意事项。
如果您想了解视频生成领域的概况,我建议您阅读这篇有关顶级 AI 视频生成器的文章。
什么是 Meta Movie Gen?
Meta Movie Gen 是用于生成 rcs 数据库 各种媒体类型(包括文本转视频、文本转音频和文本转图像)的基础模型集合。它由四个模型组成:
電影創作視頻
电影生成音频
个性化电影生成视频
電影創作編輯
Movie Gen 视频模型
Movie Gen Video 是一个拥有 300 亿个参数的模型,旨在根据文本描述创建图像和视频。该模型可以生成最长 16 秒的高质量视频,并与给定的文本提示相匹配。它可以生成不同大小、分辨率和长度的内容。
以下是使用提示生成的视频示例:
“一只戴着粉色太阳镜的树懒躺在泳池里的甜甜圈浮板上。树懒手里拿着一杯热带饮料。世界是热带的。阳光投下阴影。”
来源:Meta AI
视频中的水面倒影非常引人注目。我还发现树懒脸上的阴影非常有趣。如果处理得当,这些小细节通常不会被注意到。然而,如果处理得不好,它们就会非常引人注目,并破坏幻觉。
Movie Gen Audio 模型
Movie Gen Audio 是一个拥有 130 亿个参数的模型,可以创建与视频内容相匹配的视频音轨。它还可以根据文本提示生成音频。
它可以生成高质量的 48kHz 音频,与不同长度的视频(甚至几分钟的视频)同步。该模型还可以生成环境声音、匹配视频中看不见的音源、与动作同步的音效以及合适的背景音乐。
以下是使用提示为其中一个视频生成的音乐和声音效果的示例:
“树叶沙沙作响,树枝折断,伴随着管弦乐的音乐。”
来源:Meta AI
请注意,音乐曲目的情绪并未出现在提示中。模型能够从视频内容中捕捉到情绪。
个性化电影生成视频模型
Movie Gen Video 模型可以根据文本描述和所选人物的图像生成该人物的视频。视频在遵循文本提示的同时保留了人物的身份。
以下示例是通过将人物的自拍照与提示相结合生成的:
“一位女 DJ 在洛杉矶的屋顶上播放唱片。她身穿粉色夹克,戴着巨大的耳机。女人旁边有一只猎豹。背景是城市景观。”
来源:Meta AI
在我看来,这种模式是他们的王牌,因为如果将其融入他们的其他产品(例如 Instagram),它将展现出巨大的潜力。想象一下,用户在各种场景中创建以自己为主角的视频,所有视频都由一张图片和一段文字提示生成。这可能会带来大量富有创意且引人入胜的内容。
影片生成编辑模型
通过 Movie Gen Edit 模型,我们只需使用文本指令就可以轻松地对真实和虚构的视频进行详细而富有创意的更改。
来源:Meta AI
该模型有可能彻底改变各行各业的视频编辑工作流程。它能够准确理解和执行基于文本的编辑指令,从而显著改善编辑过程,使其更快、更高效,并让更广泛的用户能够使用。这项技术可以让电影制作人、内容创作者、教育工作者以及任何从事视频内容工作的人受益。