一手创建ChatGPT和Dall.E的人工智能研究公司OpenAI,不久前发布了最新的视频生成模型——Sora。
这款全新模型能将文字提示转化为“逼真而富有想象力的场景”(realistic and imaginative scenes)。
目前,这种新模式可根据用户所写的文字提示创建长达1分钟的短片。
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
根据OpenAI部落格指出,该模型可以“生成具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景”,更可怕的是,OpenAI还提及,该模型不仅能理解用户的提示内容,还能理解提示中的事物在物理世界中是如何存在的。
该成果确实令人惊叹,由于模型对语言有着深刻的理解,因此它可以准确地解释提示,并生成表达生动情感的引人注目的角色,Sora还能在生成的单个视频中创建多个镜头,准确刻画人物形象和视觉风格。
该模型还能接受图像输入,并根据图像生成视频,它还能填补视频中缺失的帧,甚至在需要时扩展视频。
根据OpenAI的说法,Sora是一种扩散模型,它从一个看起来像静态噪声的视频开始生成视频,然后通过多个步骤去除噪声,逐渐转换视频;与GPT模型类似,Sora也使用了变压器架构,从而释放出卓越的缩放性能。
视频的质量相当不错,但有些片段仍存在一些视觉瑕疵,Sora难以正确渲染快速动作,包括快速移动的背景,有些片段甚至出现了人工智能生成内容总是会出现的多肢故障。
目前,只有评估模型潜在危害和风险的“红队人员”(red teamers)才能使用Sora。
OpenAI确实表示,该公司正在使用Dall-E 3中内置的相同安全方法,以确保不良行为者无法创建违反其使用政策的内容;因此,文本或图像分类器不允许出现暴力、露骨、仇恨、深度伪造或其他类似内容。
OpenAI没有透露Sora将于何时向公众开放,仅表示目前正在与世界各地的利益相关者(政策制定者、教育工作者和艺术家)合作,以了解他们的担忧,并确定这项新技术的积极用例。