Sora 横空出世

Sora 是一个 OpenAI 公司(ChatGPT 的创造者) 与 2024 年 2月 15 号推出的 AI 模型,可以根据文本指令创建现实且富有想象力的场景,目前可以按照客户要求质量的 60s 时长的视频。Sora 在功能和性能上碾压其他产品,令整个行业哀鸿遍野。其令人惊叹的表现引发了业内的震惊,连 Runway 创始人都说:战斗开始。也有网友说,请为以下公司默哀一分钟:(那几乎是整个AI视频生成行业),这也包括前端时间引入瞩目的明星产品 Pika。网友很快给出了一副 SORA 王者君临天下的趣图。

sora is king vs other tools

Sora 的超能力

Sora 是一个先进的人工智能模型,专门设计用于生成复杂的视频场景,这些场景包含多个角色、特定类型的运动,以及主体和背景的精确细节。这一能力表明,Sora 不仅能理解用户通过提示提出的具体要求,还能把握这些要求在物理世界中的实际表现形式,从而在视频生成中创造出既真实又符合物理规律的内容。

Sora 对语言的深入理解使其能够精确解释用户的提示,并据此生成能够表达丰富情感的引人注目的角色。这一点在创造情感丰富、富有表现力的视频内容时尤为重要。此外,Sora 能够在单个视频中创建多个镜头,同时准确保持角色的一致性和视觉风格的连贯性,这展示了其在视频编辑和镜头转换方面的高级能力。

然而,Sora 在模拟复杂场景的物理原理以及理解具体因果关系方面存在局限。例如,它可能难以准确再现物体之间相互作用的细节,如一个角色咬饼干后饼干缺少咬痕的情况。这表明模型在理解和重现物理世界中事件的连贯性和逻辑上仍有提升空间。

此外,Sora 在处理空间细节时也可能遇到困难,如混淆方向性(左和右的混淆)或在描述随时间变化的事件时缺乏精确性,例如遵循一个特定的相机运动轨迹。

Sora 的另一个独特能力是能够在时间上向前或向后扩展视频内容。通过这种方式,它可以从一个已生成的视频片段出发,向后延伸,创造出虽然开头不同但结局相同的多个视频版本。这一功能为视频内容创造提供了更大的灵活性和创造性空间,允许制作者探索不同的叙事路径和结局。

总之,Sora 在视频生成方面展现了巨大的潜力和多样性,能够创造出丰富多彩、情感充沛的场景,尽管它在模拟物理互动和处理复杂因果关系方面还面临挑战。随着技术的进一步发展,我们可以期待 Sora 在视频内容创作、电影制作、游戏开发等领域发挥更大的作用,为用户带来更加真实、动人的视觉体验。

安全

在将 Sora 技术集成到 OpenAI 产品中之前,OpenAI 采取了一系列重要的安全措施,确保这项先进技术的安全性和责任性。首先,OpenAI 正在与红队成员合作进行对抗性测试,这些成员是在错误信息、仇恨内容和偏见等领域的专家,他们的任务是识别和解决潜在的安全威胁。

为了进一步强化安全措施,OpenAI 正在开发工具来识别和检测误导性内容。这包括开发分类器来判断何时使用 Sora 生成视频,并计划在未来在产品中加入 C2PA(内容真实性和保护标准)元数据,以提供内容的来源和真实性信息。

此外,OpenAI 利用了为 DALL·E 3 开发的现有安全策略,这些策略同样适用于 Sora。在 OpenAI 产品中,文本分类器会审查文本输入提示,拒绝那些违反使用政策的请求,例如极端暴力、性内容、仇恨图像、名人肖像或侵犯他人知识产权的内容。同时,OpenAI 还开发了图像分类器,对生成视频的每一帧进行检查,确保其在展示给用户之前符合使用政策。

OpenAI 计划与全球的政策制定者、教育工作者和艺术家合作,以理解他们对新技术的担忧并探讨其积极用例。这种合作和对话是基于对这一事实的认识:尽管已进行广泛的研究和测试,但仍难以完全预测技术的所有潜在利用方式和滥用风险。因此,从现实世界使用中持续学习,是确保人工智能系统日益安全的关键。

通过这些措施,OpenAI 显示了对于负责任地推进和部署先进 AI 技术的承诺,强调了在创新的同时确保人工智能的安全和伦理使用的重要性。

研究技术

Sora 是一种先进的扩散模型,它标志着在视频生成技术领域的一大步进。这个模型能够从初看似无序的静态噪声开始,经过多个精细步骤的转换,最终生成清晰、连贯的视频内容。Sora 的设计允许它不仅创建新视频,还能扩展现有视频的长度,解决了在视频生成过程中保持主题一致性的难题。这一点尤为重要,因为它确保了即使视频中的主体暂时离开画面,其身份和特征仍然得以保留。

Sora 的技术架构借鉴了GPT模型的成功,采用了 Transformer 架构,这为其提供了卓越的处理能力和扩展性。该模型通过将视频和图像分解成所谓的“补丁”(类似于GPT中的令牌)来处理,这种方法不仅提高了处理效率,还增强了模型在处理不同持续时间、分辨率和纵横比的视觉数据上的能力。

此外,Sora 利用了 DALL·E 3 的重述技术,这一技术通过为视觉训练数据生成描述性极强的标题来提升模型的训练效果。这使得 Sora 能够根据用户的文本指令,更加忠实地生成视频内容。这种能力的应用范围极广,不仅可以从头开始生成视频,还可以基于现有的静态图像生成动态视频,或是对现有视频进行扩展和补帧。

Sora 的开发建立在对先前 DALL·E 和 GPT 模型的研究之上,表明了在利用 AI 进行复杂视觉内容生成方面取得的持续进步。该模型的出现,不仅在技术层面上展现了创新,也为视频内容的创造提供了新的可能性,从而更贴近实现人工智能的终极目标——通用人工智能(AGI)。

Sora 代表了人工智能在理解和模拟现实世界方面迈出的重要一步。它的开发团队相信,这种能力是实现 AGI 的关键里程碑之一,展现了 AI 在理解复杂、动态视觉环境方面的潜力。通过进一步的研究和开发,Sora 有望推动人工智能在视频生成、内容创作、教育、娱乐等多个领域的应用,为用户提供更加丰富、互动和个性化的体验。

总结

我们相信,Sora 今天所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。如果你期望了解更多可以参考相关技术实现说明