《Sora 的买家秀,当魔术背后的真相被揭开,走下神坛?》
SORA能够生成整个视频,一次性可长达一分钟,这在技术上是一个巨大的进步,尤其是它在保持视频中主体一致性方面的能力。
在网上所放出的精挑细选的影片中,Sora 让人印象深刻,但同时大家也都知道这是 cherry pick 的卖家秀。
一些制作团队在过去几周获得了Sora的有限访问权限,其中包括Shy Kids团队,他们制作了SORA短片《Air Head》。
这让我们看到了Sora当前的实际工作状态和痛点,看看真正的买家秀。
- 300:1。这是生成的原始素材与最终影片中使用素材的比例。这意味着为了得到最终影片中的一秒钟内容,他们可能需要生成并审视300秒的原始素材。
- 每次视频渲染需要 10-20分钟,可以生成3-20秒的视频。
- 也就是说要制作60秒的视频,大概需要60*300分钟的时间生成素材。也就是12天。
- 尚未支持多模态输入,很难保持多镜头一致性
- 需要大量的后期处理,包括分级、稳定化、上采样以及移除不需要的元素。
- 比较适合Sora视频的编辑方式是采取了类似纪录片的方法,从大量素材中编织故事,而不是严格按照剧本拍摄。
- 制作团队有一个刚需是电影镜头的控制,如跟踪、平移、倾斜、推入等。最初的Sora中并未支持,OpenAI的研究人员并未思考过这个问题,他们很意外地发现,创作者需要控制镜头来讲故事。
https://t.co/ggYDim5ibi