OpenAI 视频模型Sora技术报告
报告的标题凸显了OpenAI并不是把它单纯当做一个视频模型来看待:将视频生成模型作为世界模拟器
报告透露Sora可以在不同设备的原生宽高比直接创建内容。生成宽屏1920x1080p视频、竖屏1080x1920视频等。
视频模型还展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。
主要内容与技术细节:
Sora使用了一种特殊的深度学习模型(即变换器)来处理视频和图像数据。这种处理方式首先将视频和图像编码成潜在代码,然后将这些代码分解成包含时间和空间信息的小块(即时空补丁),最后利用变换器模型在这些补丁上进行操作。
这样的处理方法能够有效地捕捉和生成视频和图像数据中的复杂时空动态,为生成高质量的视频和图像提供了一种强大的方法。
1、大规模训练: 通过将各种类型的视觉数据转换为统一表示,实现了生成模型的大规模训练。
2、Sora模型: 作为一种通用的视觉数据模型,Sora能够生成跨越不同持续时间、宽高比和分辨率的视频和图像,最高可达一分钟的高清视频。
3、视觉数据转换为补丁: 灵感来源于大型语言模型,通过首先将视频压缩到较低维度的潜在空间,然后将该表示分解为时空补丁。
4、视频压缩网络: 训练了一个减少视觉数据维度的网络,该网络接受原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。
5、扩展变换器用于视频生成: Sora作为一个扩散模型,通过预测原始“干净”补丁来训练,从而有效地扩展为视频模型。
Sora模型的特点与能力
1、变化持续时间、分辨率和宽高比的训练: 与通常将视频调整大小、裁剪或修剪到标准尺寸的方法不同,Sora在其原生大小的数据上进行训练,提供了多种好处。
2、采样灵活性: Sora能够采样生成宽屏1920x1080p视频、竖屏1080x1920视频等,以及在不同设备的原生宽高比直接创建内容。
3、改进的构图和布局: 实验发现,在原生宽高比的视频上训练可以改善构图和布局。
4、语言理解: 利用高度描述性的视频标题改进了文本到视频生成系统的训练,提高了文本保真度和视频质量。
5、Sora还能够以预先存在的图像或视频为输入,执行广泛的图像和视频编辑任务。
模拟能力与限制
Sora展现了一系列有趣的新兴能力,如3D一致性、长范围一致性和对象永久性,以及与物理世界的某些方面的交互模拟。尽管如此,Sora作为模拟器仍然存在许多限制,例如不准确地模拟许多基本交互的物理效应。
完整报告:https://t.co/6POxDGqb5N
点击图片查看原图