OpenAI和谷歌,AI对线中的飞驰人生

2024-02-27

到底什么时候,才能有一家公司赶超OpenAI?这句问题,想必是过去一年多来,萦绕在不少读者心中的困惑。
如果全世界只有一家公司能赶超OpenAI,谷歌应该是最有希望的选手。
同为北美AI巨头的谷歌,与OpenAI有着相同的AGI目标、世界级的技术人才、全球资金资源,就连OpenAI大模型的核心Transformer架构,都是谷歌原创发明的。
然而2023年至今,AI领域风云迭起,OpenAI永远快谷歌一步。谷歌每次拿出一个“复仇大杀器”,想一雪前耻的时候,总会被OpenAI抢走风头。
比如最新推出的核弹级多模态大模型Gemini 1.5,只在科技话题榜上“炸裂”了几个小时,就因为紧随其后推出的Sora过于炸裂、更吸引眼球,而变得无人在意。
毫无疑问,AI领域正在进行着一场世界上最精彩的“速度与激情”,领先的OpenAI赢得漂亮,紧随其后的谷歌也输得体面。我发现它们的境遇,被龙年春节档的热门电影,给精准拿捏了。
如果说OpenAI是惊艳四座、激动人心的《热辣滚烫》,那谷歌就像是《飞驰人生2》中艰难追梦的中年赛车手,鼓起勇气全速前进,结果不是赢,而是来了个大翻车。
谁能摘下赛道终点AGI的圣杯,结果还未可知,这一年多来,仅仅是欣赏这一长程赛事的初始赛段,都已经令人极为振奋了。
谷歌与OpenAI的AI对线,可谓是屡战屡败、屡败屡战。我们就从这场精彩的“双雄竞速”,来整体看一看北美AI巨头的产业对垒形势。
谷歌三连败,北美AI巨头的激情对线
目前,在争夺AGI通用人工智能圣杯的赛场上,分别有三支北美AI巨头:OpenAI、谷歌、Meta。
其中,Meta走的是开源路线,其大模型系列LLaMA是目前全球最活跃的AI开源社区。而OpenAI和谷歌则在同一条赛道上,主要打造“闭源”大模型。
尽管OpenAI被嘲讽“不再Open”,谷歌工作人员也大胆谏言“我们和OpenAI都没有护城河”。但换个角度,闭源的业务策略要说服用户付费,必须提供高质量模型、具备难以替代的能力优势,这也会驱动模型厂商持续创新,保持竞争优势,是AI产业中一股不可缺少的商业力量。
所以,北美AI三巨头的对垒格局,就是Meta卷生态,OpenAI与谷歌卷模型。
那么,把目光聚焦到模型赛道上,比赛情况如何呢?,2023一整年,和OpenAI同一赛道的谷歌,深深品尝到了peer pressure同辈压力的滋味。
这场竞速,可以分为三个赛段>
Round1.ChatGPT VS Bard.
结果不用多说,这是一场谷歌被OpenAI“摘了桃子”而开启的竞赛,从此就只能一路跟在OpenAI的尾气后面。
2022年11月,OpenAI发布ChatGPT一鸣惊人,开启了全球大语言模型的热潮。
其中,ChatGPT的基础技术Transformer是谷歌推出的,大语言模型的涌现现象是谷歌研究员Jason Wei发现的(后来跳槽到了OpenAI)。用谷歌的技术,抢谷歌的人,冲击谷歌的AI领导地位,OpenAI可谓是一通“骑脸输出”。
谷歌的应对,是“一怒之下怒了一下”。
2023年3月,谷歌紧急发布了Bard。但这个模型本身的性能就比较弱,上线时功能有限,只支持英文,只针对少数用户,跟ChatGPT完全不能打。
Round2.GPT-4 VS PaLM2.
有人说,谷歌采用的是“田忌赛马”策略,第一局故意放出了比较弱的机器学习模型Bard。这话有一定道理,但架不住OpenAI的每匹马都是好马。
OpenAI很快推出了升级版的GPT-4,并开放了 GPT-4 的 API,把谷歌甩得更远了。
5月的谷歌I/O 2023大会,派出来对打GPT- 4的PaLM 2,也是一个“过渡产品”。谷歌研究副总裁Zoubin Ghahramani对外表示,PaLM 2是对早期模型的改进,仅仅缩小了谷歌与OpenAI在AI方面的差距,但并没有整体超越GPT-4。
这一轮,谷歌仍然落后。谷歌显然也清楚这一点,在这场大会上同时宣布,正在训练PaLM的继任者,名为Gemini,押注了上亿身家,准备在年底上演“王子复仇记”。
Round3.Gemini家族VS Sora+GPT-5。
2023年底的12月,谷歌Gemini“虽迟但到”,这个谷歌目前最强大、最通用的AI模型,被媒体称为“复仇杀器”。这期间,OpenAI上演了一出“甄嬛回宫”的宫斗大戏,没有特别炸裂的产品。这一次,谷歌能夺回属于自己的一切吗?,很遗憾,谷歌并没能上演AI领域的“龙王归来”。
三个尺寸的Gemini:Nano、Pro和Ultra,其中Gemini Pro在常识推理任务中落后于OpenAI的GPT模型,Gemini Ultra对于GPT-4仅有几个百分点的优势,而GPT-4是OpenAI一年前的产品。而且,Gemini还被爆出,宣称打败GPT-4的多模态视频,有后期制作和剪辑的成分,用中国模型产生的中文语料进行训练,自称是文心一言。
谷歌一鼓作气,一脚油门,Gemini Ultra发布还没几天,就推出了多模态大模型Gemini 1.5,能够稳定处理高达100万token,创下了最长上下文窗口的纪录。
这是一个激动人心的成果,如果没有Sora的话。
OpenAI几个小时之后,就推出了文字视频生成模型Sora,用前所未有的视频生成性能,以及世界模型的产品化,再一次惊艳了世人,抢走了本应属于Gemini 1.5的话题度,也强化了自己的AI领导地位。目前人们倾向于认为,OpenAI还是领先谷歌一筹。
此前大家都猜测是GPT-5已经训练得差不多了,面对谷歌目前最强的模型Gemini 1.5,已经有人隔空喊话奥特曼,问他还要把宝贝捂到什么时候,还不快点放出GPT-5。
至此,为期约一年的北美AI“田忌赛马”,以谷歌的三连败,暂时告一段落。
AGI的殊途,难以飞驰的谷歌
AGI是一场长长的赛事。拉长时间轴,谷歌与OpenAI的一年对垒与一时成败,或许未来看都不算什么。有资格走上顶级赛道,本身就是谷歌AI实力的一种证明。
比起输赢结果,更值得讨论的是,谷歌变成“卷王”卷了一整年,为什么会一直被OpenAI甩在身后,怎么折腾都跟不上?,田忌赛马,输一次是战术失误,次次都输,可能就能关注一下,是不是从马种、马圈、草料等源头,就已经存在问题了。
回到源头,谷歌和OpenAI可谓是同归、殊途。
同归,是双方都以实现通用人工智能,摘下AGI圣杯作为目标;
殊途,是双方选择的技术路线不同。OpenAI将更为通用的语言能力,作为实现AGI的基础,因此采用了对NLP领域至关重要的Transformer架构,打造了一系列GPT模型,才有了ChatGPT的惊艳亮相。
而谷歌则不然。多年来,谷歌的AI研发机构DeepMind,将强化学习、深度学习用于解决各种人工智能问题,技术积累非常广泛。比如石破天惊的AlphaGo、彻底改变生物学的AlphaFold,以及Transformer等NLP技术。
这就相当于,两个车手在为比赛准备赛车,OpenAI为AGI选了一个场地,比如“方程式赛车”,然后以语言为核心进行模型的开发制造,对赛车(模型)的结构、长宽、发动机、汽缸等进行优化改造(工程化)。而谷歌的DeepMind则不确定哪种车能终结AGI比赛,手里的技术工具又很多,于是方程式赛车、跑车、摩托车都造一下试试。
两种路线原本并没有什么优劣之分。但随着大语言模型的“智能涌现”,证明了OpenAI选择的技术路线更有希望实现AGI,谷歌DeepMind的技术路线就暴露出了明显的短板:
1.方向分散,成本高昂。在各个技术方向上投入的泛创新,消耗了大量资金,DeepMind与谷歌母公司AlphaBeta在商业化上的矛盾日趋加深。在OpenAI大幅融资加速的时候,谷歌为了加大对AI的投资,通过裁员来节省成本。
2.选型太多,难以聚焦。谷歌开创了许多技术,但每个技术的重视程度、持续深入强度也被分散了,四处打井不出水。最典型的就是Transformer架构,由谷歌发明,但被OpenAI发扬光大。ChatGPT的涌现现象,也是研究员在谷歌发现之后,但得不到重视,出走OpenAI后向前推进。
3.落地迟缓,成果太慢。谷歌内部对AI的保守也是出名的,导致其即使掌握了先进的技术,成果转化的效率也很低下。有前谷歌员工曾吐槽,谷歌的项目一般都是先吹一阵牛,然后什么也不发布,一年后再把这个项目给砍了。这一点在Sora的爆火上就能看到,训练Sora使用的扩散模型(diffusion model)、文生图模型,谷歌都有相应的技术储备和成果,但就是没能先搞出Sora这样的产品。
可以看到,由于一开始就押注错了赛道,等到大语言模型成为AGI最有潜力的实现路径,OpenAI领先的大势已成。这时的谷歌再要回到OpenAI所在的技术赛道上,当然就处于劣势身位了。
一步错,步步错的“人生”,挺住意味着一切
坦诚地说,谷歌已经在积极解决问题,包括技术战略选择失误、内部的管理效率人事冗余、AI技术人才的外流等。
去年4月,谷歌将自己的两个AI“扛把子”团队——谷歌大脑和DeepMind合并,共同进行Gemini的开发。从最终效果来看,Gemini的表现是很优秀的,1.5版本是目前全球最领先的大模型之一。内部资源也大幅度向AI领域倾斜,一些外流的AI人才回归谷歌。
实际行动表明,谷歌在明确了赛道之后,追赶OpenAI的决心和速度都是一等一的。
但持续落后的现实也充分诠释了一点:自己的失败固然可怕,朋友的成功更让人揪心。
尽管谷歌竭力解决自身的种种弊病,全力推动大模型,但架不住OpenAI的加速度更强大。
一方面,OpenAI的研发团队可谓是全力以赴,而谷歌新合并的团队还需要磨合。Sora核心研发人员Bill Peebles曾透露,团队每天基本不睡觉高强度工作了一年。而谷歌大脑和DeepMind合并之后,很多员工不得不放弃自己原本熟悉的软件,放弃原本开展的项目去开发Gemini,这些内部磨合导致的项目延迟、停滞,必然会给谷歌追赶OpenAI带来阻碍。
另外,相比谷歌亡羊补牢式地招回人才,OpenAI虹吸全球顶级AI人才的气势如虹。就在2月份,Altman公开在社交媒体上表示,“所有关键资源都已到位,非常专注于AGI”,在线诚聘人才。AI的竞争归根结底是人才的竞争,因为AGI最重要的是智力资源,而最顶尖最优秀的人才一共只有那么多,这也让人为谷歌能否追赶上OpenAI捏了一把汗。
电影《飞驰人生2》中,主角再度尝试赛车而翻车后,他没有继续追求赛场上的赢,而是作为一个深爱着赛车运动的车手,踏上赛场,只为证明自己。
谷歌与OpenAI的对线,也不能归于简单的输和赢。正如谷歌在「Why We Focus on AI (and to what end)」中所言:我们相信AI能够成为一项基础技术,彻底改变全世界人民的生活——这正是我们追求的目标,也是我们的激情所在!
所有勇于下场、站上跑道的AI“赛车手”,都值得掌声。而这场充满了速度与激情的AGI比赛,一定还会带给观众席上的我们,更多震撼。

文章推荐

相关推荐