如何使用Sora？Sora案例、效果和原理介绍

1. Sora介绍

作为 OpenAI 首个文生视频模型，Sora 出道即王炸，生成的视频展现出了高级的摄影艺术、复杂的多角度镜头、逼真的情绪捕捉以及精确的物理模拟。毫无疑问，Sora 将对短视频、广告视频、动画短片、特效影视等视频内容行业产生巨大影响。

Sora 产品主页：https://openai.com/sora
Sora 技术报告：https://openai.com/research/video-generation-models-as-world-simulators

从文本生成模型 GPT，到文生图模型 DALL·E，再到文生视频模型 Sora，OpenAI 的技术迭代不禁让人感慨：或许，能打败 OpenAI 的只有 OpenAI 吧。

目前，OpenAI 并没有开放 Sora 使用。不过，结合之前文生图模型 DALL·E 的经验，Sora 肯定只会开放给 ChatGPT Plus 用户使用。如果需要升级 ChatGPT Plus，可以参考这篇文章：一分钟升级 ChatGPT Plus 教程。

如果没有 OpenAI 账号或者不会升级操作，这边提供独享账号和升级服务。加微信 grootielee 了解，备注 chatgpt

2. Sora文生视频案例

Sora 不仅能够在视频主体暂时离开镜头时保持故事线的流畅，还能确保视频内容的真实性和逻辑性，不让任何细节显得突兀或者不自然。下面是 OpenAI 官方给出的案例：

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

提示语：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

东京街道上的时尚女性

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

提示语：动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3D 现实的，重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇，小怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。

毛茸茸的小怪物跪在融化的红蜡烛旁

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

提示语：逼真的特写视频，展示两艘海盗船在一杯咖啡内航行时互相搏斗的情景。

两艘海盗船在一杯咖啡内搏斗

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

提示：几只巨大的长毛猛犸象踏着白雪皑皑的草地走近，它们那长长的皮毛在风中轻轻摇曳。远处的树木被雪覆盖，壮观的雪山耸入云霄，午后的阳光透过稀薄的云层，营造出一种温暖的光晕。低角度的摄影视角令人惊叹地捕捉到这些大型毛茸茸的哺乳动物，展现了美丽的摄影景深。

雪地上行走的长毛猛犸象

3. Sora的优势

与其它文生视频模型（Runway、Pika 等）进行对比发现，Sora 在生成视频的时长、连贯性和视觉细节方面表现出明显优势，几乎可以说是“吊打”的水平。

(1) 更长的视频时长

Sora 生成的视频平均时长 16 秒，最长达到 20 秒。相比之下，其它模型生成的视频时长都在 3~4 秒。Sora 生成的视频时长最多可以达到 60 秒，使其能够更加完整地呈现内容，从而更适合制作短片、广告等内容。

(2) 更强的视频连贯性

Sora 生成的视频具有自然的摄像机移动和流畅的角色动画，视频中的人物和物体具有较高的一致性，增强了整体观看体验。相比之下，其它模型制作的视频经常会出现场景突变、画面不流畅等问题，影响观看体验。

(3) 更丰富的视觉细节

Sora 生成的视频具有更丰富的视觉细节，物体纹理清晰，色彩逼真，整体视频质量更高。相比之下，其它模型生成的视频通常显得有些模糊且细节不足、色彩也没那么鲜艳。

(4) 更能满足不同场景

Sora 更能够满足不同创作者的需求，无论是创作科幻场景、动画人物，还是模拟真实世界，都可以轻松实现。

4. Sora核心技术

OpenAI 在 Sora 上面吸取了过去大语言模型训练的许多成功经验。Sora 生成的视频，逼真和连贯程度都令人惊叹，这得益于两项核心技术创新。

(1) 首先，在底层架构上，Sora 采用 Diffusion Transformer（DiT）架构。

传统的文生视频模型通常采用扩散模型（Diffusion Model），OpenAI 将文本生成模型（例如：GPT-4）采用的 Transformer 架构与扩散模型相融合，形成了 Sora 采用的 Diffusion Transformer 架构。

(2) 其次，Spacetime Patch 是 Sora 的另一项技术创新。

在这一创新点上，Sora 的设计思路和文本生成模型（例如：GPT-4）也是相似的。Patch 可以理解为 Sora 的基本单元，是视频的片段，一个视频可以看作是不同 Patch 按照一定序列组织起来的。就像 GPT-4 采用 Token 作为基本单元一样，Token 可以理解为文本的片段。GPT-4 处理一串 Token，并预测出下一个 Token；Sora 遵循相同的逻辑，处理一系列的 Patch，并预测出序列中的下一个 Patch。参考 GPT-4 的表现，它对文本的语义理解水平非常细腻，将同样的原理应用在 Sora 上面，使其生成的视频更加流畅和逼真。