在大年初七,春节假期的尾声,OpenAI突然发布的AI文字生成视频模型Sora被全网刷屏,马斯克甚至感叹“gg Humans”(gg是good game的缩写,在竞技游戏中原意为称赞对方打得不错,但目前主流的含义是代表认输退出)。
文字生成视频的AI模型其实之前也有不少,比如去年11月美国AI初创公司Pika Labs发布的Pika 1.0;去年Runway推出了文生视频模型Gen-1,并完成了两次迭代;还有谷歌团队发布的视频生成模型VideoPoet。但问题在于,此前市面上的文生视频模型只能生成数秒,最高十多秒的视频。而Sora一上来就是60秒的视频长度,且生成视频的细节、质量几乎“秒杀”其他文生视频模型,这足以颠覆目前的视频生成模型初创公司的格局。
视频生成质量炸裂,好莱坞时代要结束了?
Sora生成的视频效果有多强?下面是OpenAI在官网展示的第一个视频,也是最能够表现Sora实力的视频。
这个视频的提示词为“一位时尚女士走在东京的街道上,街道上充满了温暖的霓虹灯和动画城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道潮湿且反光,形成了五颜六色灯光的镜面效果。许多行人四处走动。”
从视频中,无论是运镜还是人物、地面、背景的细节,还有拉进镜头后人物面部上的皱纹、毛发、墨镜上的反光,都几乎可以以假乱真,画面稳定不错位。在长达60秒的视频里,画面随镜头的大幅度运动并没有出现错位的情况,整体风格保持了惊人的一致性。
在复杂场景方面,另一个演示视频同样展现了Sora的炸裂效果。下面这个视频使用的提示词为:“一段美丽的自制视频展示了2056年尼日利亚拉各斯的人们。用手机相机拍摄。”
同样是运镜幅度巨大的场景,同时背景有大量的人物。在以往的文生图模型中,类似这种背景有人群的图片都会产生很多错位,很容易看出AI的痕迹,而在Sora生成的这个视频里,背景人群不仔细看很难发现有错误,特别是在动态的视频当中。另一方面在视频后半段的人物近景里,大幅度运动的镜头同样没有对人物造成影响,画面细节极为稳定。
Sora生成视频的稳定,不止于单镜头的运动,即使是多镜头的画面切换中,依然能够保持色彩、画面风格的一致
除了真实场景之外,Sora还能以动画风格生成视频。比如使用提示词:“动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的,重点是照明和纹理。这幅画的基调是惊奇和好奇,因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉,就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。”
生成出的动画形象与皮克斯电影几乎不相上下,此前在动画电影中大费周章渲染出的毛发,如今AI直接一键生成!难怪会有网友表示“好莱坞的时代要结束了”。
有博主将Sora跟Pika、Runway、Stable Video等几个模型进行对比,对其输入同样的提示词:“美丽、多雪的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个享受美丽的下雪天气和在附近摊位购物的人。绚丽的樱花花瓣随着雪花随风飞舞。”
结果Sora生成的视频无论是时间长度、还是运镜、画面细节,都完胜其他几个模型生成出的视频。比如Pika和Runway生成的视频在短短几秒时间里都只有固定镜头画面,Stable Video有镜头移动的变化,但时长太短。
Sora还未完美,OpenAI揭秘背后技术
目前Sora还未对大众开放,OpenAI表示Sora正在面向部分用户开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入以推动模型的发展。
当然,在惊艳的演示视频外,Sora的视频生成也并非完美。OpenAI也表示,目前的模型可能难以准确模拟复杂场景的物理特性,也可能不理解因果关系的具体实例,比如一个人咬了一口饼干,饼干上可能没有咬痕。Sora生成的视频还可能混淆提示词中关于空间的细节(比如左右),并且难以准确描述随时间发生的事件,比如跟随特定的镜头轨迹等。
比如上面动图中所使用的提示词为“五只灰狼崽在一条偏僻的碎石路上嬉戏追逐,周围都是草地。小狗们奔跑跳跃,相互追逐,相互撕咬,嬉戏玩耍”,但实际画面中灰狼数量出错,并且部分是凭空出现又凭空消失,出现身体互相重叠等现象。
对于Sora背后使用的技术,OpenAI在官网上发布了一篇报告进行了介绍,但只提到了方便大模型进行训练的数据处理方式和对Sora局限性的评价,没有太多技术细节。
根据介绍,Sora是一种diffusion模型,它从一个看起来像静态噪声的视频开始生成视频,并通过多个步骤去除噪声来逐渐转换视频。与GPT相似,Sora算法层面也采用了transformer,以释放出强大的扩展性能。
OpenAI表示,Sora是以过于公司对DALL·E和GPT模型的研究作为基础,使用了DALL·E 3中的重新标注技术。通过用一个能够生成详细描述的标注模型,为训练集中的所有视频生成详细的文字说明,这能够提高文字准确性的同时,还能提升视频的整体质量。
与DALL·E 3类似,OpenAI也使用了GPT将简短的用户提示词转换为更详细的文本,所以Sora能够准确理解用户提示,并生成对应视频。
另外,OpenAI还透露了Sora的其他能力,包括接受图像和文本说明输出视频、能够以时间线向前或向后扩展视频、生成图像、改变视频风格和环境、无缝连接两个不同视频等等。
业界大佬评价:“真的非常牛”“中美AI差距进一步拉大”
Sora的“刷屏”,引起了多位业内大佬的关注。前阿里技术副总裁贾扬清也感叹“Sora真的非常牛”,并认为对标OpenAI的公司有一波被其他大厂因为害怕错过AI而收购相关公司的机会。对于其他算法小厂,贾扬清建议“要不就算法上媲美OpenAI,要不就垂直领域深耕应用,要不就开源”,最后他预言AI infra(AI基础设施)的需求会继续猛增。
360董事长周鸿祎则回应了如何看待Sora的问题,他认为科技竞争最终比拼的是让人才密度和深厚积累,“很多人说 Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”
周鸿祎还表示,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。关于国内外的AI大模型差距,周鸿祎认为国内大模型发展距离GPT-4.0还有一年半的差距,并且相信OpenAl手里应该还藏着一些秘密武器。“奥特曼是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”
关于大模型本身,周鸿祎对Sora理解为OpenAl利用它的大语言模型优势,把LLM和 Diffusion结合起来训练,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。而得益于大量视频的训练,周鸿祎认为AI对世界的理解将远超文字学习,可能未来一到两年就能实现AGI(通用人工智能)。
而作为去年年底爆火的AI视频生成初创公司Pika创始人,郭文景将Sora的发布视为动力,表示“我们觉得这是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标 Sora。”