(文/李弯弯)近日,OpenAI发布的文生视频模型Sora全网刷屏。相比之前的文生视频模型,Sora无论是视频时长,还是画面精细度,细节完整性,或是多镜头拍摄,都更为突出。Sora的发布也让AI生成视频有了突破性进展。
过去一年多,全球科技公司都在发布各种大模型,然而AI生成内容更多集中在文本和图片方面,AI视频生成方面却进展缓慢。从当前的形势来看,AI视频生成在今年或许会有一番新景象。那么目前国内外都有哪些AI视频生成工具,效果如何呢?
Sora
OpenAI发布的新型视频生成模型Sora,其核心能力是能够生成长达一分钟的高清视频,这一时长远超之前的生成模型。而且,Sora生成的视频不仅画质卓越,细节丰富,而且帧率高、连续性好,几乎达到了无缝衔接的效果。
从OpenAI官网展示的一个视频来看,输入提示词“一位时尚女士走在东京的街道上,街道上充满了温暖的霓虹灯和动画城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道潮湿且反光,形成了五颜六色灯光的镜面效果。许多行人四处走动。”
生成的视频,无论是运镜还是人物、地面、背景的细节,还有拉进镜头后人物面部上的皱纹、毛发、墨镜上的反光,都几乎可以以假乱真,画面稳定不错位。在长达60秒的视频里,画面随镜头的大幅度运动并没有出现错位的情况,整体风格保持了惊人的一致性。
据IDC中国预测,Sora将率先在短视频、广告、互动娱乐、影视制作和媒体等行业中得到应用。在这些领域,利用Sora的多模态大模型能力,可以辅助内容行业的工作者更高效地创作视频,不仅加快了生产速度,还提高了产出数量,并为用户带来前所未有的视觉体验。这将助力企业实现成本降低、效率提升,并进一步优化用户体验。
Pika 1.0
在OpenAI发布视频生成模型Sora之前,去年11月29日,美国AI初创公司Pika labs发布的文生视频产品Pika 1.0呈现的效果在当时也相当惊艳。Pika labs是一家成立于去年4月份的初创公司,创始人郭文景和联合创始人兼CTO Chenlin Meng,都是斯坦福大学AI Lab博士生。一位专注于NLP(自然语言处理)和图形学,另一位主攻计算机视觉方向。
据介绍,该公司推出的视频生成模型Pika 1.0能够生成和编辑3D动画、动漫、卡通和电影。视频生成方面,可以通过文字生成视频,也可以图片生成视频。比如,只需输入提示词“马斯克穿着太空服,3D动画”,一个动画版本、穿着太空服准备乘坐火箭上太空的马斯克即可生成,外形、动作、背景等元素均十分逼真,可以媲美花大成本制作的3D动画影像。
Pika 1.0还可以通过原有视频生成更高质量的视频。该公司当时展示了一个骑马的黑白原视频,通过Pika 1.0生成了物种不同风格的动画,几乎涵盖现有电影和动画大部分风格,看上去质量效果非常好。除了视频生成,Pika 1.0还能够进行视频编辑,用户只需要选定编辑区域,就能根据文本提示词修改特定区域。
在当时来看,Pika 1.0的出现可以说效果好于之前的文生视频模型。然而随着现在Sora的出现,Pika或许会感觉到压力。Pika公司创始人郭文景表示,“我们觉得这是一个很振奋人心的消息,我们已经在筹备升级中,将直接对标 Sora。”
Gen-2
相比于OpenAI和Pika,成立于2018年的AI初创公司Runway应该是最早探索视频生成领域的企业。2022年2月,Runway发布了Gen-1,可以对原视频进行风格化的编辑。3月该公司又发布了生成式AI视频模型Gen-2,允许用户输入文本提示生成四秒长视频,8月,Runway添加了一个选项,可以将 Gen-2 中人工智能生成的视频延长至 18 秒。
在随后的几个月,Runway还对Gen-2 做了几次更新。之后更是推出动态笔刷Motion Brush,它是Runway视频生成工具Gen-2的一部分。Runway动态笔刷是一种利用人工智能技术让静止图片中的物体动起来的功能,你只需要在图片上用画笔涂抹你想要动起来的部分,Runway就会自动识别物体的运动轨迹和特征,生成逼真的动态效果。该工具的发布引起业界不小的关注。
在Pika 1.0和Sora出现之前,Runway的Gen-2模型被认为是AI视频制作的顶尖模型,它制作出来的视频效果逼真、流畅、高清。随着OpenAI Sora的发布,Runway接下来或许会有新动作,在Sora发布之后,Runway CEO第一时间在X上发推特称“game on(竞争开始了)”。
Stable Video Diffusion
在图片生成领域遥遥领先的Stability AI,去年11月发布了其最新的AI模型Stable Video Diffusion,这款模型能够通过现有图片生成视频,是基于之前发布的Stable Diffusion文本转图片模型的延伸,不过当时,这款模型并不是对所有人开放的。
据介绍,Stable Video Diffusion当时还处于Stability AI所谓的“研究预览”阶段。想要使用这款模型的人必须同意一些使用条款,其中规定了Stable Video Diffusion的预期应用场景(例如教育或创意工具、设计和其他艺术过程等)和非预期的场景(例如对人或事件的事实或真实的表达)。
从网友对比反馈来看,Stable Video Diffusion生成视频的效果可以与当时被看好的的Runway 和Pika Labs 的AI生成视频相媲美。不过局限性在于,Stability AI的视频生成模型,不能生成没有运动或缓慢的摄像机平移的视频,也不能通过文本进行控制,也不能渲染文字(至少不能清晰地渲染),也不能一致地“正确地”生成人脸和人物。
写在最后
目前来看,在视频生成方面,表现比较优秀的几个模型就是上文提到的OpenAI发布的Sora,以及Pika labs、Runway、Stability AI发布的视频模型。其中Sora无论是在时长,还是运镜、画面细节等方面都更为突出。Stability AI的模型目前还不能进行文本生成视频。
除了这几款视频生成工具之外,还有一些企业在文生视频方面也有动作,包括Adobe,该公司宣布已收购AI视频生成创业公司Rephrase.ai;谷歌,其团队已经发布发布了视频生成模型VideoPoet。
国内的字节跳动、百度、阿里在这方面也有动作。字节跳动此前就推出了一款视频模型Boximator,可以通过文本精准控制生成视频中人物或物体的动作。不过近日,字节跳动对此回应称,Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
另外值得关注的是,2月23日消息,谷歌资深科学家、VideoPoet项目负责人蒋路已加入字节跳动旗下短视频社交平台TikTok。字节跳动接下来在视频生成方面的研究还是可以期待一下。
早前就传出百度文心大模型视频生成功能在内测中,不过目前还没进展的消息。阿里在去年底也上线了Animate Anyone模型,通过一张图片就能生成视频,当时有网友用一张照片生成了一段跳舞视频,每一个动作都十分自然,几乎可以乱真,在网络上引起大量传播。
总的来说,目前国内外已经有不少企业在探索视频生成领域,包括国内的字节跳动、百度、阿里,虽然已经逐渐有一些进展。不过相比OpenAI、Pika labs、Runway等的视频模型,还存在差距。