OpenAI又打出王炸！一句话生成60秒视频，马斯克：人类认输吧

在大年初七，春节假期的尾声，OpenAI突然发布的AI文字生成视频模型Sora被全网刷屏，马斯克甚至感叹“gg Humans”。

文字生成视频的AI模型其实之前也有不少，比如去年11月美国AI初创公司Pika Labs发布的Pika 1.0；去年Runway推出了文生视频模型Gen-1，并完成了两次迭代；还有谷歌团队发布的视频生成模型VideoPoet。但问题在于，此前市面上的文生视频模型只能生成数秒，最高十多秒的视频。而Sora一上来就是60秒的视频长度，且生成视频的细节、质量几乎“秒杀”其他文生视频模型，这足以颠覆目前的视频生成模型初创公司的格局。

视频生成质量炸裂，好莱坞时代要结束了？

Sora生成的视频效果有多强？下面是OpenAI在官网展示的第一个视频，也是最能够表现Sora实力的视频。

这个视频的提示词为“一位时尚女士走在东京的街道上，街道上充满了温暖的霓虹灯和动画城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，拿着一个黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信而随意。街道潮湿且反光，形成了五颜六色灯光的镜面效果。许多行人四处走动。”

从视频中，无论是运镜还是人物、地面、背景的细节，还有拉进镜头后人物面部上的皱纹、毛发、墨镜上的反光，都几乎可以以假乱真，画面稳定不错位。在长达60秒的视频里，画面随镜头的大幅度运动并没有出现错位的情况，整体风格保持了惊人的一致性。

在复杂场景方面，另一个演示视频同样展现了Sora的炸裂效果。下面这个视频使用的提示词为：“一段美丽的自制视频展示了2056年尼日利亚拉各斯的人们。用手机相机拍摄。”

同样是运镜幅度巨大的场景，同时背景有大量的人物。在以往的文生图模型中，类似这种背景有人群的图片都会产生很多错位，很容易看出AI的痕迹，而在Sora生成的这个视频里，背景人群不仔细看很难发现有错误，特别是在动态的视频当中。另一方面在视频后半段的人物近景里，大幅度运动的镜头同样没有对人物造成影响，画面细节极为稳定。

Sora生成视频的稳定，不止于单镜头的运动，即使是多镜头的画面切换中，依然能够保持色彩、画面风格的一致

除了真实场景之外，Sora还能以动画风格生成视频。比如使用提示词：“动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的，重点是照明和纹理。这幅画的基调是惊奇和好奇，因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉，就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。”

生成出的动画形象与皮克斯电影几乎不相上下，此前在动画电影中大费周章渲染出的毛发，如今AI直接一键生成！难怪会有网友表示“好莱坞的时代要结束了”。

有博主将Sora跟Pika、Runway、Stable Video等几个模型进行对比，对其输入同样的提示词：“美丽、多雪的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个享受美丽的下雪天气和在附近摊位购物的人。绚丽的樱花花瓣随着雪花随风飞舞。”

结果Sora生成的视频无论是时间长度、还是运镜、画面细节，都完胜其他几个模型生成出的视频。比如Pika和Runway生成的视频在短短几秒时间里都只有固定镜头画面，Stable Video有镜头移动的变化，但时长太短。

Sora还未完美，OpenAI揭秘背后技术

目前Sora还未对大众开放，OpenAI表示Sora正在面向部分用户开放，以评估关键领域的潜在危害或风险。同时，OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入以推动模型的发展。

当然，在惊艳的演示视频外，Sora的视频生成也并非完美。OpenAI也表示，目前的模型可能难以准确模拟复杂场景的物理特性，也可能不理解因果关系的具体实例，比如一个人咬了一口饼干，饼干上可能没有咬痕。Sora生成的视频还可能混淆提示词中关于空间的细节，并且难以准确描述随时间发生的事件，比如跟随特定的镜头轨迹等。

比如上面动图中所使用的提示词为“五只灰狼崽在一条偏僻的碎石路上嬉戏追逐，周围都是草地。小狗们奔跑跳跃，相互追逐，相互撕咬，嬉戏玩耍”，但实际画面中灰狼数量出错，并且部分是凭空出现又凭空消失，出现身体互相重叠等现象。

对于Sora背后使用的技术，OpenAI在官网上发布了一篇报告进行了介绍，但只提到了方便大模型进行训练的数据处理方式和对Sora局限性的评价，没有太多技术细节。

根据介绍，Sora是一种diffusion模型，它从一个看起来像静态噪声的视频开始生成视频，并通过多个步骤去除噪声来逐渐转换视频。与GPT相似，Sora算法层面也采用了transformer，以释放出强大的扩展性能。

OpenAI表示，Sora是以过于公司对DALL·E和GPT模型的研究作为基础，使用了DALL·E 3中的重新标注技术。通过用一个能够生成详细描述的标注模型，为训练集中的所有视频生成详细的文字说明，这能够提高文字准确性的同时，还能提升视频的整体质量。

与DALL·E 3类似，OpenAI也使用了GPT将简短的用户提示词转换为更详细的文本，所以Sora能够准确理解用户提示，并生成对应视频。

另外，OpenAI还透露了Sora的其他能力，包括接受图像和文本说明输出视频、能够以时间线向前或向后扩展视频、生成图像、改变视频风格和环境、无缝连接两个不同视频等等。

业界大佬评价：“真的非常牛”“中美AI差距进一步拉大”

Sora的“刷屏”，引起了多位业内大佬的关注。前阿里技术副总裁贾扬清也感叹“Sora真的非常牛”，并认为对标OpenAI的公司有一波被其他大厂因为害怕错过AI而收购相关公司的机会。对于其他算法小厂，贾扬清建议“要不就算法上媲美OpenAI，要不就垂直领域深耕应用，要不就开源”，最后他预言AI infra的需求会继续猛增。

360董事长周鸿祎则回应了如何看待Sora的问题，他认为科技竞争最终比拼的是让人才密度和深厚积累，“很多人说 Sora的效果吊打Pika和Runway。这很正常，和创业者团队比，OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。”

周鸿祎还表示，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。关于国内外的AI大模型差距，周鸿祎认为国内大模型发展距离GPT-4.0还有一年半的差距，并且相信OpenAl手里应该还藏着一些秘密武器。“奥特曼是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”

关于大模型本身，周鸿祎对Sora理解为OpenAl利用它的大语言模型优势，把LLM和 Diffusion结合起来训练，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。而得益于大量视频的训练，周鸿祎认为AI对世界的理解将远超文字学习，可能未来一到两年就能实现AGI。

而作为去年年底爆火的AI视频生成初创公司Pika创始人，郭文景将Sora的发布视为动力，表示“我们觉得这是一个很振奋人心的消息，我们已经在筹备直接冲，将直接对标 Sora。”

OpenAI又打出王炸！一句话生成60秒视频，马斯克：人类认输吧

相关推荐

伟测集成电路芯片测试基地竣工，晶圆级与成品测试项目全面启动。

俄罗斯光刻机突破，350nm技术成功实现，引领科技新篇章。

中国团队突破，全可编程拓扑光子芯片研制成功，引领科技新潮流。

上海新政力推人工智能、算力芯片，科技新风向，不容错过！

美国拟限AI大模型出口，全球科技格局生变，速览最新动态！

博世2024传感器新品：SCS智能互联与两大创新系列，引领行业变革。

OpenAI发布AI图片检测工具，准确率98%，并研发AI音频水印，引领新潮流。

AI医院小镇登陆清华，AI医生超人类，数天诊治万人，快来体验未来医疗！

谷歌AlphaFold 3预测生命分子，登Nature，免费开放，加速科研亿年！

OpenAI掌门人谈AI：末日说夸张，对技术革命持乐观审慎态度。

推荐

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

基于脱硝系统改造的自动化优化分析

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

博世与芯驰科技全面深化战略合作围绕车用半导体核心技术

PLL锁相环：工作原理简述，高效同步控制的核心技术。

中科曙光助力北京航天总医院打造24小时在线的AI医疗助手

国产替代奋进高端，创新引领，开启替代新篇章。

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

最近更新

如何看待人形机器人接下来的机会与风险?

图像传感器如何 “带货” 机器人赛道?

关于微弱传感器信号(mV 级别)的有效信号采集及干扰控制措施

低压动态无功补偿电容柜怎样配置?

频率变化时电源板上的变压器会发出响声是什么原因?

MOS 场效应管被静电击穿的原因分析

打造多场景飞行器 “梦之队”，翱翔新空域

基于Seeed Studio XIAO ESP32C3，设计电子纸显示器

基于XIAO ESP32 C6，以16x8矩阵作为显示器设计一个小游戏

工业信号调节器硬件设计，信号调理电路、ADCDAC与隔离模块的集成

OpenAI又打出王炸！一句话生成60秒视频，马斯克：人类认输吧

相关推荐

推荐

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

基于脱硝系统改造的自动化优化分析

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

博世与芯驰科技全面深化战略合作 围绕车用半导体核心技术

PLL锁相环：工作原理简述，高效同步控制的核心技术。

中科曙光助力北京航天总医院打造24小时在线的AI医疗助手

国产替代奋进高端，创新引领，开启替代新篇章。

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

最近更新

如何看待人形机器人接下来的机会与风险?

图像传感器如何 “带货” 机器人赛道?

关于微弱传感器信号(mV 级别)的有效信号采集及干扰控制措施

低压动态无功补偿电容柜怎样配置?

频率变化时电源板上的变压器会发出响声是什么原因?

MOS 场效应管被静电击穿的原因分析

打造多场景飞行器 “梦之队”，翱翔新空域

基于Seeed Studio XIAO ESP32C3，设计电子纸显示器

基于XIAO ESP32 C6，以16x8矩阵作为显示器设计一个小游戏

工业信号调节器硬件设计，信号调理电路、ADCDAC与隔离模块的集成

博世与芯驰科技全面深化战略合作围绕车用半导体核心技术