感谢小互总能找到优质资源,我也翻译校对了一下字幕。
Tim Brooks 和 Bill Peebles 是 OpenAI 的 Sora 团队成员,他们在加州大学伯克利分校 Alberto 的课堂上分享了以下内容:
Tim Brooks:
- Ben Mildenhall,原始 NERF 作者之一,使用我们发布的一个名为 "Santerating the Blue Hour" 的样本进行了实验。他用 NERF 方法处理了样本,结果很成功。这本身就是一个很好的评估,证明这个模型已经学会了扎实的 3D 一致性。
- 我们真正兴奋的另一种能力是长距离的连贯性。这对于视频生成系统来说是一个很大的亮点,也是 Soar 所构建的现有能力中最重要的一项。
- 在实践中,这种能力显得非常有趣。比如,我们在纽约的一家珠宝店和动物园拍摄的气球。模型能够将这些不同的动物拼接在一起,形成一个连贯的叙述,在这些动物之间移动。而且都在同一镜头中,展示出相同的风格和氛围。
- 我们也可以保持角色的一致性。举个例子,有一个机器人在赛博朋克的环境中生活,这个角色在多个场景中都保持一致。
Bill Peebles:
- 很多这样的现象可以在大规模数据上无需过多的归纳偏见就可以学习到。当你处于计算资源有限的情况下,你可能会想要把像速率一致性这样的想法直接融入模型中。
- 深度学习的一个故事就是,无论是对于视觉模型还是语言模型,在某个时点,过度的归纳偏见会成为阻碍。如果你有足够的计算资源和足够的数据,通常来说,只需要让这些大型神经网络自由学习,而无需太多的人为干预,这往往是一个非常成功的方法。
- 所有这些能力其实只是通过扩大计算和数据规模得来的。模型中并未具有明确的 3D 或对象级别的归纳偏见,但令人惊讶的是,它们能够捕捉到一些这样的特性。
- 无疑有 3D 的一致性,当然,这也许通过大量的样本已经得到了验证。即使在镜头中有人物移动,模型也能给出相机的位置,关于光线,关于纹理,关于我们能获取的尽可能多的信息。我们发现这种方式大大提升了结果的质量。
- 在推理阶段,GPT 在底层将简单的提示转换为一个非常详细的提示词。在这段提示词中,我们特别引导了 GPT,使其产生的详细程度与训练时相当。由于其处理的细节程度与训练时非常相似,它非常符合训练分布,从而产生了最高质量的结果。
- 我们对于视频的处理方式与 Sora 非常相似。与只是用数据微调 GPT 模型相比,两种方式都是可行的,具体取决于情况。
- 我们可以根据用户的输入来确定任何子集的帧。在一个示例中,所有视频都会以相同的方式结束,原始的视频实际上是由 Sora 生成的,但我们可以将它向后扩展。它们都从不同的地方开始,但最终都汇集到同一结果。
- 借助扩散模型图像编辑领域的一些成熟技术,比如 SD Edit,我们能够对视频进行各种风格的转换。例如,可以让视频中的场景变为带有彩虹道路的太空,或者改为中世纪主题。模型非常聪明,知道在中世纪汽车并不存在,因此会用红色马车替换。
- 这些结果中最酷的一点是,它们能够保留场景中的一些结构元素。比如在原始视频的最后部分,会有一个穿越洞穴的场景。在不同风格中,你会看到穿越的是一个中世纪的城堡,而不是洞穴。
- 我们也非常期待插值功能。使用 Sora 可以逐渐从一个视频过渡到另一个视频,无需对这些视频进行对齐或者进行任何手动指定关键点,模型可以自动学习处理。它可以创造出非常流畅的过渡效果。从创新的角度来看,这似乎是一种在其他类型的 CGI 基础编辑中难以实现但 AI 却可以非常好地完成的能力,是 AI 的一大优势。