OpenAI Sora负责人最新万字干货深访 · 完整版

在视频生成领域,只有两种模型:OpenAI Sora模型,以及其他不是Sora的模型。Sora视频生成的能力相比其他视频生成模型完全是代际的碾压,号称视频生成的GPT时刻当之无愧。只可惜Sora还没有发布时间表,很多时候,关心视频生成的人只能看着偶尔发布的几个生成样例望梅止渴。刚刚,NoPriors播客最新发布了Sora项目团队三位负责人的现场访谈。在这个访谈里, 三位负责人透露了大量Sora的研究训练和使用的细节,投资人主持的问题也可圈可点。这可以说是至今关于Sora最详细的一次探讨。

Sora的核心负责人由三位才华横溢的年轻研究者组成。他们分别是Tim Brooks、William Peebles(昵称Bill)和Aditya Ramesh。

Tim Brooks是DALL-E 3的主要作者之一。他本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学。去年1月,他顺利从加州大学伯克利分校获得博士学位后,立即加入OpenAI,参与了DALL-E 3和Sora的开发工作。

与Tim同样毕业于伯克利、只是晚了4个月的William Peebles,是Sora的另一位核心成员。Bill本科就读于麻省理工学院,主修计算机科学。在校期间,他参与了GAN和text2video的研究,还在英伟达实习,专注于深度学习、自动驾驶和计算机视觉。2022年,Bill在Meta实习期间,与谢赛宁合作发表了DiT模型,开创性地将Transformer与扩散模型结合。这一突破性成果被ICCV 2023录用为Oral论文。有趣的是,业界普遍认为OpenAI的Sora正是基于DiT模型构建的。去年5月,Bill从伯克利毕业后也加入了OpenAI。

相比之下,Aditya Ramesh在OpenAI已经是个"老人"。作为DALL-E的创造者,他主导了三代DALL-E的研究工作,并在每一版论文中都担任共同一作。

三位负责人都认为,像Sora这样的模型是实现人工智能的关键步骤,因为它能模拟复杂的环境和世界。他们预计,随着模型的扩大,将能构建类似世界模拟器的东西,任何人都可以与之互动,这是通往人工智能的道路。

目前,Sora模型的访问权限已提供给一小部分艺术家和红队成员,以了解其可能产生的影响。他们从艺术家那里得到了反馈,关于如何让它成为对他们最有用的工具,以及从红队成员那里得到了反馈,关于如何让它安全,如何将它介绍给公众。这将为他们未来的研究设定路线图,并告知他们未来是否最终会推出产品,确切的时间表是什么。

三位负责人讨论了模型的世界模拟功能,接着讨论了模型的创新,包括扩散Transformer的概念和应用,以及模型的缩放定律。Sora的开发需要处理大量数据,需要开发新的基础设施和系统。Sora的架构与其他模型有所不同,它并不是从图像生成器开始并尝试添加视频,而是从头开始,专注于视频生成。

Sora的应用可能超越了当前没有应用端到端深度学习的领域,包括自动驾驶等。Sora的视觉美感引人注目,但其美学并未深入嵌入模型中。然而,Sora的语言理解能力允许用户以一种比其他模型更难的方式来操纵它。

讨论还涉及了Sora的潜在应用,包括教育和娱乐。例如,制作定制的教育视频或用视频阐述观点。此外,Sora也可能应用于数字化身份等领域,但目前团队的重点仍在于技术的基础发展,而不是特定的下游应用。

Aditya提到,许多安全缓解措施可以从DALL-E 3移植过来,但也会有新的安全问题需要关注,例如错误信息和攻击性文字的生成。

Tim分享了他对未来产品路线图的兴奋,特别是人们如何利用他们的产品创造新的东西。他期待这项技术能帮助才华横溢、富有创造力的人创造出他们想要的东西。

Bill讨论了让这项技术更广泛普及的挑战,包括如何降低成本,以及如何处理可能出现的错误信息和相关风险。他还提到了他们正在研究的一些功能,如更准确的长期物理交互。

Tim比较了Sora过程与人类大脑的工作方式,强调了世界建模在人类智能中的重要性。他对Sora的前景持乐观态度,认为它将取代人类的某些能力,并有朝一日超越人类的智慧。并且认为,随着规模的扩大,真正有效的方法仍然只是预测数据,这就是他们在Sora中对文本和视觉数据所做的。预测数据是以可扩展的方式学习智能的最佳方法。

Aditya则认为,只需扩大模型的规模就能赋予它们惊人的能力,这一点在GPT模型中已得到证实。将同样的方法应用于视频模型也会带来非常惊人的能力,Sora 1就是这一观点的存在证明。

文:天空之城·城主
以下是访谈全文的天空之城书面版,转自“图灵人工智能“”公众号2024-04-27

主持人:今天,我们有幸能与 OpenAI 的 Sora 项目团队进行交谈。Sora 是一种全新的视频生成模型,它能根据文本提示生成高清、视觉连贯且长达一分钟的剪辑。Sora 还探讨了这些大型视频模型是否能成为世界模拟器的问题,并将可扩展的 Transformers 架构应用于视频领域。我们今天的嘉宾是 Sora 项目团队的 Aditya Ramesh、Tim Brooks 和 Bill Peebles。欢迎大家收听 NoPriors,非常感谢你们接受我们的邀请。

首先,我们希望你们每个人都能简单介绍一下自己,这样我们的听众就能知道我们正在与谁交谈。Aditya,你愿意先开始吗?

Aditya: 好的,我是 Aditya,我与 Tim 和 Bill 一起领导 Sora 项目团队。

Tim: 大家好,我是 Tim,我也是 Sora 项目团队的leader。

Bill:我是 Bill,同样是 Sora 项目团队的leader。

很好。或许我们可以从 OpenAI 的使命开始谈起,那就是实现 AGI,也就是更强大的人工智能。那么,文本转视频的技术是否符合这个使命呢?你们是如何开始研究这个领域的呢?

Bill:是的,我们坚信像 Sora 这样的模型确实是实现 AGI 的关键步骤。我们认为一个很好的例子就是一群人在冬天穿过东京的场景。在这个场景中,复杂性无处不在。你可以想象一个摄像机飞过这个场景,有很多人在互动,他们在说话,他们手牵着手,有人在附近的摊位上卖东西。我们真的认为这个例子说明了 Sora 是如何在神经网络的权重范围内模拟极其复杂的环境和世界的。

展望未来,为了生成真正逼真的视频,你必须学习一些关于人们如何工作、如何与他人互动、最终如何思考的模型。这不仅包括人,还有动物,以及任何你想要模拟的物体。因此,展望未来,随着我们继续扩大像 Sora 这样的模型,我们认为我们将能够构建这些类似世界模拟器的东西,基本上任何人都可以与它们互动。作为人类,我可以运行自己的模拟器,我可以去给模拟器中的人布置工作,他们做完后可以带着工作回来。我们认为这是通往 AGI 的道路,随着我们未来扩大 Sora 的规模,AGI 就会实现。

有人说,尽管对消费产品的需求巨大,但我们仍然遥不可及,比如路线图上的内容是什么?在更广泛地使用 Sora 之前,您需要做什么工作?Tim,你愿意谈谈这个问题吗?

Tim:是的,我们真的希望能与 OpenAI 以外的人交流,思考 Sora 将如何影响世界,它将如何对人类有用。因此,我们目前还没有制定产品的即时计划,甚至没有制定产品的时间表。然而,我们正在做的是,我们将Sora的访问权限提供给一小部分艺术家以及红队成员,以开始了解Sora将产生的影响。我们从艺术家那里得到了反馈,关于如何让它成为对他们最有用的工具,以及从红队成员那里得到了反馈,关于如何让它安全,如何将它介绍给公众。这将为我们未来的研究设定路线图,并告知我们未来是否最终会推出产品,确切的时间表是什么。

你能告诉我们你得到的一些反馈吗?

Aditya:是的,我们已经将Sora的访问权限提供给了少数艺术家和创作者,只是为了获得早期反馈。总的来说,我认为一件大事就是可控性。目前模型实际上只接受文本作为输入。虽然这很有用,但在能够指定你想要的精确描述方面仍然相当受限。因此,我们正在考虑如何在未来扩展模型的功能,以便您能够提供除文本之外的输入。

你们有没有看到艺术家或其他人用它制作的最喜欢的东西,或者最喜欢的视频或你觉得非常鼓舞人心的东西?

我知道,当它推出时,很多人都被一些图像的美丽、引人注目所震撼,你会看到一只猫在水池中的影子或诸如此类的东西。但我只是好奇,随着越来越多的人开始使用它,你看到了什么。

Tim:是的,看到艺术家们用这个模型做了什么真的很棒,因为我们有自己的想法去尝试一些东西。但是,那些以制作创意内容为职业的人非常有创造力,做了如此令人惊叹的事情。例如,Shy Kids制作了一个非常酷的视频,他们制作了这个短篇故事Airhead,这个角色有一个气球。他们真的很喜欢这个故事。看到Sora能够解锁并让这个故事更容易讲述,这真的很酷。我认为这甚至与Sora制作的某个特定剪辑或视频无关,而与这些艺术家想要讲述并能够分享的故事有关,而Sora可以帮助实现这一点。这真的很棒。

你提到了东京场景。其他的呢?

Bill:我个人最喜欢的我们制作的样本是Bling Zoo。我在我们推出Sora的那天在Twitter上发布了这个。它本质上是一个纽约动物园的多镜头场景,它也是一家珠宝店。所以你会看到剑齿虎装饰着闪亮的东西。

这非常超现实。

Bill:是的,我喜欢这些样本,因为作为一个喜欢创造内容但又没有足够技能的人,使用这个模型并激发出一堆想法并得到一些非常引人注目的东西是非常容易的。比如,在迭代提示方面,实际生成它所花费的时间真的不到一个小时,我就得到了我真正喜欢的东西。所以我很开心只是玩这个模型来得到这样的东西。我非常高兴地看到艺术家们也热衷于使用这些模型,并从中创作出精彩的作品。

这些模型在短片或其他领域的广泛应用的时间表是什么?如果你回顾皮克斯的发展历程,你会发现他们最初是制作短片,然后部分短片逐渐演变成了长片。这在很大程度上与他们如何精细模拟头发运动等细节有关。观察上一代技术的发展过程非常有趣,我认为它已经有30年的历史了。

我们何时会开始看到来自Sora或其他模型的实际内容,这些内容将由专业人士制作,并成为更广泛媒体类型的一部分?

Tim:这是一个好问题。我没有确切的时间表预测,但我对此非常感兴趣,那就是除了传统电影之外,人们可能会将其用于什么。我认为,在接下来的几年里,我们会看到人们开始制作越来越多的电影,但我认为人们也会找到使用这些模型的全新方式,这些方式与我们习惯的当前媒体完全不同。因为这是一个非常不同的范例,你可以告诉这些模型你希望它们看到什么,它们可以做出某种反应,也许它们就像真正有创造力的艺术家想出的新内容交互模式。所以我实际上最兴奋的是人们将要做的事情,这些事情与我们目前所做的完全不同。

你提到的一点非常有趣,这也是一种进行世界建模的方法。Aditya在OpenAI工作了大约五年,因此你见证了许多模型和公司的发展。最初是机械臂之类的东西,它是游戏的自动play之类的东西。

当你考虑这个世界模拟模型的功能时,你认为它会成为模拟的物理引擎吗?人们实际上正在模拟风洞?它是机器人技术的基础吗?还是别的东西?我对未来可能出现的其他一些前瞻性应用非常好奇。

Aditya:是的,我完全认为在视频模型中进行模拟是我们将来某个时候能够做到的事情。Bill实际上对这种事情有很多想法。

Bill:我认为你说到了点子上。对于像机器人这样的应用,你可以从视频中学到很多东西,而这些不一定能从其他模式中获得。OpenAI等公司过去在这方面投入了大量资金,比如语言,比如手臂和关节如何在空间中移动的细节,再次回到东京的那个场景,那些腿是如何移动的,它们是如何以物理上准确的方式与地面接触的。所以,你只需通过对原始视频的训练就能学到很多关于物理世界的知识,我们真的相信,这对于未来的物理体现等事情至关重要。

再谈谈模型本身,这里有很多非常有趣的创新。所以不是要让你为难,Tim,你能向广大技术受众描述一下什么是扩散Transformer吗?

Tim:所以Sora建立在OpenAI的DALL-E模型和GPT模型的研究之上。扩散是一种数据生成过程,以我们的案例为例,即视频生成。这个过程从噪音开始,通过反复多次去除噪音,直到最终去除了足够多的噪音,只生成一个样本。这就是我们生成视频的过程。我们从一段有噪音的视频开始,逐步去除噪音。

然而,从架构角度来看,我们的模型必须是可扩展的,它们需要能够从大量数据中学习,并理解视频中那些非常复杂且具有挑战性的关系,这一点至关重要。因此,我们采用了一种类似于GPT模型的架构,称为Transformer。因此,将这两个概念与Transformer架构结合起来的扩散Transformer使我们能够扩展这些模型。随着我们投入更多的计算和更多的数据来训练它们,它们的性能会越来越好。

我们甚至发布了一份关于Sora的技术报告,展示了在使用较少、中等和更多的计算量时,从同一提示中获得的结果。我们坚信,通过使用这种方法,随着你使用越来越多的计算,结果会越来越好。因此,通过使用这种非常简单的方法,我们将能够通过增加更多的计算来继续改进这些模型,添加更多数据,它们将能够完成我们一直在谈论的所有这些令人惊奇的事情,包括更好的模拟和更长期的生成。

我们能否描述一下这种模型的缩放定律是什么样的?

Bill:这是一个好问题。正如Tim所提到的,使用Transformer的好处之一是,你可以继承我们在语言等其他领域看到的所有优秀属性。因此,你完全可以开始提出视频而不是语言的缩放定律。这是我们团队正在积极研究的事情,我们不仅在构建这些模型,还在寻找让它们变得更好的方法。所以,如果我使用相同数量的训练计算,我是否可以在不从根本上增加所需计算量的情况下获得更好的损失?这些都是我们的研究团队每天要解决的问题,以使Sora和未来的模型尽可能好。

关于在这个领域应用Transformer的问题之一就是标记化(Tokenization),对吗?顺便说一句,我不知道是谁想出了这个名字,但像Latent Spacetime Patches这样的科幻名字在这里很棒。你能解释一下它是什么以及为什么它与此相关吗?因为,能够进行长达一分钟的生成并获得视觉和时间连贯性真的很棒。

Tim:我认为我们想出的并不是一个名字,而是一个描述性的东西,确切地描述了我们称之为什么。

是的,甚至更好。

Tim:因此,LLM范式的一个关键成功就是token的概念。如果你看看互联网,你会发现上面有各种各样的文本数据。有书籍、代码和数学。语言模型的妙处在于它们有token这一单一概念,这使得它们能够在如此广泛的数据上进行训练。之前的视觉生成模型真的没有类似的东西。所以,在Sora之前,非常标准的做法是,你会在256 x 256分辨率的图像或256 x 256的视频上训练图像生成模型或视频生成模型,这些视频正好是四秒长。这个问题的关键在于,数据类型的使用受到了严重的限制,这使得我们无法充分利用互联网上大量存在的视觉数据。这种限制也削弱了模型的通用性。因此,在Sora项目中,我们引入了“时空补丁”的概念。这种方法允许我们仅表示数据,而这些数据可以存在于图像、长视频和高垂直视频中,我们只需提取立方体即可。

你可以将视频想象为一个堆栈,就像一个垂直堆叠的单个图像,你可以从中提取这些3D立方体。当我们最终将其输入Transformer时,这就是我们对token的理解。因此,Sora能够做的不仅仅是生成固定时长的720p视频。你可以生成垂直视频、宽屏视频,甚至可以在一比二到二比一之间执行任何操作。它还可以生成图像,这是一个图像生成模型。

实际上,这是第一个具有广度的视觉内容生成模型,就像语言模型一样。这就是我们追求这个方向的真正原因。

在输入和训练方面,它同样重要,因为它能够接收不同类型的视频。

Bill:这个项目的很大一部分实际上是开发基础设施和系统,以便能够以以前的图像或视频生成系统所不需要的方式处理如此庞大的数据。

Tim:在Sora之前,许多处理视频的模型实际上都在考虑扩展图像生成模型。在图像生成方面有很多出色的工作。许多人一直在做的是使用图像生成器并对其进行一些扩展,而不是生成一张图像,你可以生成几秒钟的图像。但对于Sora来说,真正重要的是架构上的差异,而不是从图像生成器开始并尝试添加视频,而是从头开始,我们从如何制作一分钟的高清镜头的问题开始。这就是我们的目标。

当你有这个目标时,我们知道我们不能仅仅扩展图像生成器。我们知道,为了制作一分钟的高清镜头,我们需要可扩展的东西,将数据分解成非常简单的方式,以便我们可以使用可扩展的模型。所以我认为这确实是从图像生成器到Sora的架构演变。

这是一个非常有趣的框架,因为它感觉可以应用于人们目前没有应用端到端深度学习的各种其他领域。

Tim:这是有道理的,因为在最短的时间内,我们并不是第一个推出视频生成器的人。很多人,很多人在视频生成方面做了令人印象深刻的工作,但我们觉得,好吧,我们宁愿选择未来的一个点,然后,花一年时间研究它。而且有这种快速做事的压力,因为人工智能太快了。最快的做法是,哦,让我们采用现在有效的东西,然后添加一些东西。正如您所说,这可能比将图像转换为视频更为普遍,还涉及其他方面。然而,有时候我们需要退后一步进行思考,例如,三年后这个问题的解决方案会是什么样子?让我们开始构建它。

确实,最近在自动驾驶领域也出现了类似的转变,人们从定制的边缘案例预测和启发式方法转向了新模型中的端到端深度学习。因此,看到它在视频中的应用非常令人兴奋。

Sora最引人注目的一点就是它的视觉美感。我对此感到好奇,你是如何调整或制作这种美感的?因为我知道在一些更传统的图像生成模型中,你们都有反馈,有助于影响美感的演变。但在某些情况下,人们实际上是在调整模型。所以我有点好奇你在Sora的背景下是如何考虑这个问题的。

Bill:实际上,我们并没有为Sora投入大量精力。世界很美?这是一个很好的答案。我认为这可能是对大部分问题的诚实回答。我认为Sora的语言理解绝对允许用户以一种比其他模型更难的方式来操纵它。你可以提供很多提示和视觉提示,这些提示将引导模型朝着你想要的代数类型发展。

但美学并不是深深嵌入的。

我认为展望未来,模型会赋予人们某种力量,让他们理解你的个人审美感,这将是很多人期待的事情。

我们接触的许多艺术家和创作者都希望将他们的全部资产上传到模型中,这样在写标题时就可以借鉴大量的作品,并让模型理解他们设计公司几十年来积累的术语等等。因此我认为个性化以及它如何与美学结合在一起将会成为以后值得探索的一件很酷的事情。

我认为Tim所说的就像超越传统娱乐的新应用。我工作、旅行,还有年幼的孩子。所以我不知道这是否是需要评判的事情。但我今天做的事情之一是制作一些类似短篇有声读物的东西,里面有声音克隆、多莉图像,还有你知道的,风格类似的故事,比如魔法树屋之类的,或者围绕我感兴趣的某个话题,比如,哦,和罗马皇帝十世一起出去玩,对吧?或者女孩们、我的孩子感兴趣的东西。

但这在计算上很昂贵,很难,而且不太可能。但我想象每个人都会拥有类似桌面皮克斯的某个版本,我认为孩子们会首先发现这一点,但我会讲述一个故事,并让神奇的视觉效果实时发生。我认为这是一种与我们现在完全不同的娱乐模式。

我们会得到它吗?

Tim:我认为我们正朝着那个方向前进。还有不同的娱乐模式、不同的教育模式和交流模式。娱乐是其中很重要的一部分,但我认为一旦真正理解了我们的世界,就会有很多潜在的应用。我们的世界和我们体验世界的方式很大程度上都是视觉化的。这些模型真正酷的地方在于,它们开始更好地理解我们的世界、我们的生活和我们所做的事情。我们可以利用这些技术来娱乐自己,也可以用它们来教育我们。有时候,当我想学习一些东西时,最有效的方法就是找一个定制的教育视频来解释。同样,如果我想和某人交流一些观点,可能最好的方式就是制作一个视频来阐述我的观点。因此,我认为娱乐和视频模型可能有更广泛的潜在应用。

这是非常合理的。这引起了我的共鸣,我认为如果你问年轻一代的人,他们会说当今世界上最大的教育推动力是 YouTube。

无论是好是坏。你们有尝试过将这些技术应用于数字化身份等方面吗?像 Synesthesia、Heygen 这样的公司在这个领域做了一些有趣的事情。但是,拥有一种真正能够以非常深刻和丰富的方式囊括一个人的技术,似乎是一种有趣的潜在适应性方法。我只是好奇你是否已经尝试过类似的事情,或者这是否不太适用,因为它更像是文本到视频的提示。

Tim:到目前为止,我们并没有真正专注于其背后的核心技术。因此,我们并没有过多关注特定的应用,包括化身的概念,这是非常有意义的。我认为尝试一下会很酷。我认为我们现在在 Sora 的轨迹中的位置就像是这种新视觉模型范式的 GPT-1。我们真正在研究基础研究,以使它们变得更好,使其成为可以为所有这些不同事物提供动力的更好的引擎。所以,我们现在的重点只是这项技术的基础发展,可能比特定的下游应用更重要。这是非常有道理的。

是的,我问化身问题的原因之一是它开始引发有关安全性的问题。所以我有点好奇,你们是如何看待视频模型中的安全性以及进行深度伪造或恶搞之类的事情的可能性的。

Aditya:是的,我可以谈一谈这个。这绝对是一个相当复杂的话题。我认为很多安全缓解措施可能都可以从 DALL-E 3 中移植过来。例如,我们处理色情图片或血腥图片的方式,诸如此类。肯定会有新的安全问题需要担心,例如错误信息。或者例如,我们是否允许用户生成带有攻击性文字的图片?

我认为这里要弄清楚的一个关键问题是,部署这项技术的公司承担多少责任?例如,社交媒体公司应该做多少工作来告知用户他们看到的内容可能不是来自可信来源?用户在使用这项技术创造某些东西时要承担多少责任?所以我认为这很棘手。我们需要认真思考这些问题,以找到我们认为对人们最有利的立场。这是有道理的。

而且,还有很多先例。就像人们过去使用 Photoshop 处理图像然后发布它们一样。并提出索赔。人们并没有说,因此,Photoshop 的制造商要为滥用该技术的人负责。因此,在考虑这些事情方面,似乎有很多先例。

Aditya:确实如此,我们的目标是发布一些能让人们真正感受到自由,可以自由表达自己并做他们想做的事情的产品。然而,有时这与做一些负责任的事情以及以人们可以习惯的方式逐步发布技术相矛盾。

我想向在座的各位提出一个问题,也许可以从Tim开始,如果你能分享这一点,那就太好了。关于未来的产品路线图、你的发展方向或你接下来要开发的一些功能,你最兴奋的是什么?

Tim:确实,这是一个好问题。我对人们将如何利用我们的产品创造出新的东西感到非常兴奋。我认为有很多才华横溢、富有创造力的人都有自己想要创造的东西。但有时要做到这一点真的很困难,因为他们可能缺乏必要的资源、工具或其他东西。这项技术有可能让许多有才华横溢、富有创造力的人创造出他们想要的东西。我真的很期待他们将要制作出什么了不起的东西,以及这项技术将如何帮助他们。

Bill,我想问你一个问题,这是否像你刚才提到的GPT-1一样,我们还有很长的路要走。这不是普通大众有机会尝试的东西。除了长度等显而易见的问题之外,你能描述一下你想要解决的局限性或差距吗?

Bill:是的,我认为,在让这项技术更广泛地普及方面,有很多服务方面的考虑需要考虑。一个大问题是如何让这项技术足够便宜,让人们可以使用。我们过去说过,在生成视频方面,这在很大程度上取决于确切的参数,比如你正在制作的视频的分辨率和时长。但是,这不是即时的。你必须至少等待几分钟才能看到我们生成的这些很长的视频。所以我们正在积极地研究线程,以降低成本,以便更广泛地普及它。

我认为,正如Aditya和Sam所暗示的那样,在安全方面也有很多考虑。因此,为了让这项技术真正变得更加广泛地普及,我们需要确保,特别是在选举年,我们对可能出现的错误信息和任何相关风险非常谨慎。我们今天正在积极努力解决这些问题。这是我们研究路线图的重要组成部分。

那么,关于核心问题,比如质量问题,有没有更好的术语?有没有具体的事情,比如你正在考虑物体永久性或某些类型的交互?

Bill:是的,当我们展望GPT-2或GPT-3的时刻时,我们真的很高兴非常复杂的长期物理交互变得更加准确。举一个具体例子,如果我有一段某人踢足球的视频,他们在踢球,在某个时刻,那个球可能会蒸发掉,也许会回来。所以它可以相当可靠地进行某些更简单的交互,比如人们走路。但这些更详细的对象与对象之间的交互肯定仍然是一个正在酝酿的功能,我们认为随着规模的扩大,它会变得更好。但这是一件值得期待的事情。

我认为有一个例子可以作为少数几个的缩影。当然,这样的例子有很多,但我曾经见过的一个例子是,一个男人咬了一口汉堡,而这一口在汉堡里留下的痕迹,就像保持了某种状态一样,这非常酷。

Bill:是的,我们对这个非常兴奋。还有另一个例子,就像一个女人用水彩在画布上作画,画笔在画布上真的留下了痕迹。所以,正如你所说,目前的模型中有一些这种能力的闪光点,我们认为它在未来会变得更好。

你能谈谈你在Sora项目上的工作是如何影响更广泛的研究路线图的吗?

Tim:是的,我认为这是关于Sora项目的一个重要方面,即通过查看所有这些视觉数据来了解世界的知识。它理解3D,这是一件很酷的事情,因为我们还没有对它进行训练。我们并没有明确地将3D信息融入其中。我们只是用视频数据对它进行了训练,它学会了3D,因为这些视频中存在3D。它还学会了当你咬一口汉堡包时,会留下咬痕。所以它学到了很多关于我们这个世界的东西。当我们与世界互动时,很多都是视觉的。我们一生中看到和学到的东西很多都是视觉信息。所以我们真的认为,对于智能,对于引导更智能的人工智能模型,更好地理解世界,这对它们来说非常重要,因为它们需要有这样的基础,比如,嘿,这就是我们生活的世界。这里面有太多的复杂性。有很多关于人们如何互动、事情如何发生、过去的事件如何影响未来的事件的内容,这实际上会导致比生成视频更广泛的更智能的人工智能模型。

这几乎就像你同时发明了未来的视觉皮层和大脑推理部分的某些部分。

Tim: 是的,这是一个很酷的比较,因为人类拥有的很多智能实际上都与世界建模有关,对吧?当我们思考如何做事时,我们总是在脑海中演绎各种场景。我们会在梦中在脑海中演绎各种场景。我们在做事之前会提前思考。如果我这样做,这件事就会发生。如果我做另一件事,会发生什么,对吧?所以我们有一个世界模型,将Sora构建为世界模型与人类拥有的大部分智能非常相似。

你们如何看待与人类的类比,即拥有一个非常近似的世界模型,而不是像传统意义上的物理引擎那样精确的东西,对吧?因为如果我拿着一个苹果然后把它扔下,我预计它会以一定的速度掉落,但大多数人并不认为这是用计算速度来表达路径。你认为这种学习在大型模型中就像是并行的吗?

Bill:我认为这是一个非常有趣的观察。我认为我们思考事物的方式是,它几乎就像人类的一个缺陷,就是它没有那么高的保真度。因此,当你涉及到一组非常狭窄的物理学时,我们实际上无法做出非常准确的长期预测,这是我们可以通过其中一些系统进行改进的。因此,我们对Sora的前景持乐观态度,认为它将取代人类的某些能力。从长远来看,我们相信Sora有朝一日将超越人类的智慧,成为世界模型的代表。然而,这也是一个明确的证据,表明对于其他类型的智能来说,Sora并非必需。无论如何,这仍然是Sora和未来模型可以改进的地方。

显然,对于预测投掷足球的轨迹,下一版本的模型将会有更好的表现,比如我的模型就会更好。

Tim:如果我可以补充一点,这与规模范式有关,也与我们希望随着计算能力的增加,方法能够不断改进的一些痛苦经验有关。在这个范式中,真正有效的方法就是执行简单但具有挑战性的任务,即预测数据。你可以尝试提出更复杂的任务,例如,不直接使用视频,而是在某种类似的空间中模拟近似的事物。但是,当涉及到方法如何随着规模的扩大而改进的缩放定律时,所有这些复杂性实际上并没有带来任何好处。随着规模的扩大,真正有效的方法仍然只是预测数据。这就是我们对文本所做的,我们只是预测文本。这也是我们在Sora中对视觉数据所做的,我们并没有复杂化问题,而是试图找出一些新的东西来优化。我们认为,以可扩展的方式学习智能的最好方法就是预测数据,这是非常有道理的

关于你所说的,预测会变得更好,没有必要的限制来接近人类。你认为公众对视频模型或Sora有什么误解吗?或者你想让他们知道什么?

Aditya:我认为,对于公众来说,Sora的发布可能是最大的更新。正如Bill和Tim所说,在内部,我们一直在将Sora与GPT模型进行比较。当GPT-1和GPT-2问世时,人们开始越来越清楚地认识到,只需扩大这些模型的规模就能赋予它们惊人的能力。目前还不清楚,扩大下一个标记预测的规模是否会产生一个有助于编写代码的语言模型。对我们来说,很明显,将同样的方法应用于视频模型也会带来非常惊人的能力。我认为Sora 1是一种存在证明,表明现在缩放曲线上有一个点,我们对这将带来什么感到非常兴奋。

这真是太棒了。我不知道为什么这让每个人都如此惊讶,但痛苦的教训又一次得到了证实。

是的,我只想说,正如Tim和Aditya所暗示的那样,我们确实觉得这是GPT-1的时刻,这些模型很快就会变得更好。我们真的很兴奋,我们认为这将给创意世界带来令人难以置信的好处,这对AGI的长期影响是什么。

与此同时,我们正在努力非常注意安全考虑,并构建一个强大的堆栈,以确保社会真正从中获益,同时减轻负面影响。但这是一个令人激动的时刻,我们期待着未来模型能够实现什么。

确实,这是一次惊人的发布,要祝贺各位

Leave a Reply

Your email address will not be published. Required fields are marked *