OpenAI新工具Sora 可根据文字生成逼真视频

一手创建ChatGPT和Dall.E的人工智能研究公司OpenAI，不久前发布了最新的视频生成模型——Sora。

这款全新模型能将文字提示转化为“逼真而富有想象力的场景”（realistic and imaginative scenes）。

目前，这种新模式可根据用户所写的文字提示创建长达1分钟的短片。

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

根据OpenAI部落格指出，该模型可以“生成具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景”，更可怕的是，OpenAI还提及，该模型不仅能理解用户的提示内容，还能理解提示中的事物在物理世界中是如何存在的。

该成果确实令人惊叹，由于模型对语言有着深刻的理解，因此它可以准确地解释提示，并生成表达生动情感的引人注目的角色，Sora还能在生成的单个视频中创建多个镜头，准确刻画人物形象和视觉风格。

该模型还能接受图像输入，并根据图像生成视频，它还能填补视频中缺失的帧，甚至在需要时扩展视频。

根据OpenAI的说法，Sora是一种扩散模型，它从一个看起来像静态噪声的视频开始生成视频，然后通过多个步骤去除噪声，逐渐转换视频；与GPT模型类似，Sora也使用了变压器架构，从而释放出卓越的缩放性能。

视频的质量相当不错，但有些片段仍存在一些视觉瑕疵，Sora难以正确渲染快速动作，包括快速移动的背景，有些片段甚至出现了人工智能生成内容总是会出现的多肢故障。

目前，只有评估模型潜在危害和风险的“红队人员”（red teamers）才能使用Sora。

OpenAI确实表示，该公司正在使用Dall-E 3中内置的相同安全方法，以确保不良行为者无法创建违反其使用政策的内容；因此，文本或图像分类器不允许出现暴力、露骨、仇恨、深度伪造或其他类似内容。

OpenAI没有透露Sora将于何时向公众开放，仅表示目前正在与世界各地的利益相关者（政策制定者、教育工作者和艺术家）合作，以了解他们的担忧，并确定这项新技术的积极用例。

【资料来源】

OpenAI新工具Sora 可根据文字生成逼真视频

Fong Pui Yern

POPULAR

Copyright © 2023 · SoyaCincau.com
Mind Blow Sdn Bhd (1076827-P)

Copyright © 2023 · SoyaCincau.com – Mind Blow Sdn Bhd (1076827-P)

OpenAI新工具Sora 可根据文字生成逼真视频

Fong Pui Yern

POPULAR

Copyright © 2023 · SoyaCincau.com Mind Blow Sdn Bhd (1076827-P)

Copyright © 2023 · SoyaCincau.com – Mind Blow Sdn Bhd (1076827-P)

Copyright © 2023 · SoyaCincau.com
Mind Blow Sdn Bhd (1076827-P)