AI顶流OpenAI又一重磅力作Sora，究竟是什么？一文弄懂Sora：简介｜发展历程｜主要功能｜使用场景｜替代软件｜AI软件工具推荐！

AI顶流OpenAI又一重磅力作Sora，究竟是什么？一文弄懂Sora：简介｜发展历程｜主要功能｜使用场景｜替代软件｜AI软件工具推荐！

2024-12-26 08:58

要说最近一周的头条热搜，非Sora莫属！Sora的诞生，再一次引发了人们对AI人工智能以及AIGC的关注。

对第一次听说Sora的人，可能会好奇，大家都在说的Sora是什么？

Sora，是OpenAI继ChatGPT之后，推出的又一重磅力作，它是一个文本到视频模型（即文本生成视频），可以根据用户输入的描述性提示快速生成视频，并及时向前或向后扩展现有视频。

Sora的核心功能在于其能够理解并转化文本指令为动态视频内容。用户只需提供简单的文本描述，Sora就能生成具有丰富细节和连贯性的视频。这一过程涉及到复杂的图像生成和视频编辑技术，Sora能够在几秒钟内完成，支持生成长达一分钟的视频内容。

Sora的出现，不仅展示了AI在内容创作领域的新可能性，也为视频制作、广告、教育和娱乐产业带来了革命性的变化。

从现有的资料可以看到，Sora具备如下功能——

文本到视频的转化：Sora能够将用户的文本描述（prompts）转化为动态的视觉内容，极大地降低了视频制作的门槛。角色和场景生成：模型能够根据描述生成具有多个角色和复杂背景的视频场景。物理模拟：Sora在生成视频时，会尝试模拟现实世界的物理规则，尽管在某些情况下可能不够完美。视频编辑和扩展：Sora不仅能够从头开始生成视频，还能够对现有视频进行编辑和扩展，填补缺失的帧或增加新的内容。

当然也不排除Sora后期正式上线时，会额外推出新的功能。

在Sora之前，市面上已有多个文本到视频生成模型，包括Meta的Make-A-Video、Runway的Gen-2和Google的Lumiere，不过最后一个截止目前也仍处在研究阶段，这次OpenAI抢在Google之前，提前发布了重磅产品Sora，自此OpenAI在AIGC内容生成领域，打造了3大堪称王炸的产品矩阵——

AI生成文本：ChatGPTAI生成图像：DALL-E 3AI生成视频：Sora

开发Sora的团队以日语中天空的意思来命名它，象征着它“无限的创造潜力”。在正式发布的当日，Sora官网展示了多段使用Sora生成的视频片段，其中包括一位时尚女性漫步在东京街头、一辆SUV行驶在山路上、旁边有一个“短毛怪”的动画一根蜡烛、两个人在雪地里走过东京，以及加州淘金热的虚假历史镜头。

目前Sora官网仅展示了一些基于Sora生成的、且未经过编辑的视频片段，但暂未给出使用Sora的入口或方法。从外媒的报道中得知，目前只有安全测试人员、少数视频制作者和艺术家可用上Sora，余下的人暂时无法使用，唯一可以期待的是，OpenAI计划在未来某个时候推出Sora。

想用上Sora，首要的是关注Sora官网的最新动态，截止笔者撰写本文时，Sora官网还没有提供Sora的使用说明，仅提及对多位视觉艺术家、设计师和电影制作人提供访问权限，以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。

在Sora推出之前，市场上已有不少基于文本自动生成视频的AI工具，不过这些AI工具生成的视频时长大多局限在4秒，而Sora支持生成长达1分钟的时间，这种视频时长的差异，让现有的诸多AI生成视频软件黯然失色。

但考虑到Sora暂未开放给公众使用，现阶段仍可以使用已有的AI文生视频工具，来辅助自己创作视频，下面就给各位介绍3款好用的AI生成视频工具。

① Pictory

Pictory是一个AI视频生成器，可以轻松创建和编辑高质量视频。这个工具最好的一点是你不需要任何视频编辑或设计经验。

你可以通过提供脚本或文章开始，这将成为你的视频内容的基础。例如，Pictory可以将你的博客文章转化为引人入胜的视频，用于社交媒体或你的网站。对于个人博主和希望提高参与度和质量的公司来说，这是一个很棒的功能。由于它基于云端，它可以在任何计算机上使用。

Pictory还允许你使用文本轻松编辑视频，非常适合编辑网络研讨会、播客、Zoom录音等。它使用简单，仅需几分钟即可呈现专业结果，帮助你扩大受众群体并建立品牌。

② Synthesia

Synthesia是一个AI视频生成平台，可以让你快速使用AI头像创建视频。该平台包括超过60种语言和各种模板、屏幕录制、媒体库等等。Synthesia被一些世界知名品牌如谷歌、耐克、路透社和BBC所使用。

使用Synthesia，你无需复杂的视频设备或拍摄地点。你可以从超过70种不同的AI头像中选择，甚至为你的品牌获得独家的AI头像。除了预设的头像，你还可以创建自己的头像。

这个AI语音生成平台使得获得一致且专业的配音变得非常容易，可以通过点击按钮轻松编辑。这些配音还包括隐藏字幕。一旦你有了头像和配音，你可以在几分钟内使用50多个预设计模板制作高质量视频。你可以上传自己的品牌标识资产并获得定制模板。

③ Pika

Pika，是海外流行的AI视频生成软件，用户可以上传自己的创意想法，Pika会自动生成相关的视频，极大地降低了制作视频的门槛。

Pika-功能特点

自动化视频制作：用户可以通过输入脚本或描述，AI软件自动生成视频内容。

模板选择：提供多种预设的视频模板，用户可以根据自己的需求选择合适的模板进行视频创作。

图像和视频编辑：支持对图片和视频素材进行裁剪、调整和优化，以适应视频内容。

文本和字幕：支持文本输入和字幕生成，可以自动同步视频中的对话和说明。

动画和特效：提供动画和特效选项，增强视频的视觉吸引力。

导出和分享：支持多种视频格式的导出，方便用户在不同平台分享和发布视频。

用户友好界面：直观的操作界面，使得视频制作过程简单易学，无需专业视频编辑技能。

除了上面提及的AI生成视频工具，在AI生成文本（AI对话/AI聊天机器人/AI写作）、AI生成图片（AI绘画）这两个领域，也有诸多好用的AI工具可供选择，下面一并为大家介绍和推荐相应的AI工具软件！

① boardmix AI

boardmix AI，是一个在线的智能AI对话App，打开浏览器即可在线使用，支持AI多轮连续对话，提供AI角色切换、AI多语言翻译、一键唤出、可视化表达及多人协作功能。

boardmix AI预置了多个不同的AI角色，包括面试官、职业顾问、人事主管、情感专家、关系专家、辩论选手、辩论专家、解梦师、工程师、UX/UI设计师等，进行对话之前可从预设的角色库中选择所需的角色，这样在进行AI对话时生成的内容更有针对性，省去前期调教AI机器人的时间。

*在线AI对话软件boardmix AI

使用boardmix AI进行AI对话的步骤如下：

在浏览器打开boardmix AI的首页，如下图所示，下方的「对话类型」列出了boardmix AI内置的所有AI角色，将鼠标指针移动到任意一个角色上方，会弹出「开始对话」的按钮，点击即可开始对话。

*boardmix AI对话首页

进入到AI对话的界面，AI机器人会自动弹出一句提示语，可以给我们输入的内容提供一些方向，譬如当我们选择「职业顾问」，职业顾问机器人会弹出下方的提示语——

你好，我是职业顾问专家，请问你可以告诉我一些信息吗？例如年龄、学历、兴趣爱好等个人信息，我会结合就业市场趋势给你一些建议

我们可以在底部的输入框输入我们想了解的各种问题，输入后按下回车键Enter发送给AI对话机器人，它就会像现实中的聊天一样，根据我们发送的内容，自动返回相应的信息。

输入框左下角会显示我们当前选用的AI角色，点击角色名称，可一键更改当前所使用的AI角色。

点击AI角色名称后，会弹出下图的面板，可重新选择要进行对话的角色——

AI对话：AI对话机器人、倾听者、情感专家、关系专家、解梦师思维发散：脑暴创意点、苏格拉底、辩论选手、辩论专家求职助手：面试官、职业顾问、人事主管编程助手：IT编程问题、前端：UX/UI界面、代码释义器

从中选择一个新的AI对话角色，会新建一个对话窗口，与原先选择的AI角色区分开，前后对话产生的内容也不会混在一起。

与AI对话的过程中，如果AI生成了你满意的内容，可以右击对应的内容，boardmix提供了多个选项——

复制多选：进入多选的状态，可同时选中多条内容添加到个人素材库：将内容暂存到boardmix素材库中添加到画布：将内容添加到boardmix白板画布中，支持在线编辑AI生成的内容

如果你想对AI对话生成的内容进行编辑或整合，建议选择最后一个选项「添加到画布」，boardmix会自动创建一个白板画布，将内容添加到白板中。

下方即为boardmix创建的白板文件，前面AI对话生成的内容，会以「文本框」的形式置于白板画布中。对于白板上的文本框，我们可以再次使用boardmix AI，对整个文本框或是其中的部分内容进行处理，譬如在选中整个文本框的情况下，点击工具栏最左侧的「AI助手」，它提供了多个基于AI生成内容的选项——

AI智能问答（再次进行AI对话）AI提炼生成：生成思维导图、生成代码、生成任务清单、生成演示文稿帮我思考：头脑风暴、解释说明、SWOT分析帮我翻译：翻译为英文、翻译为日语、翻译为俄语、翻译为法语、翻译为德语、翻译为中文帮我创作：提升写作水平、修复拼写/语法、总结归纳、文章续写

这些都是AI对话或AI文本生成中常用的AI指令，可根据内容处理的需要灵活选择，让AI生成我们想要的内容。

另外值得一提的是，boardmix拥有强大的可视化表达能力，提供了诸如便签、图形、画笔、看板、文档、表格、PPT等丰富的创作工具和模板资源，可用来承载「美化」我们基于AI生成的内容，轻松提升内容的视觉表现力，让内容脱颖而出。

看到这里的朋友，如果你也想使用当下流行的AI对话应用，不妨在浏览器打开boardmix AI的首页，亲自体验这款拥有良好口碑的一站式AIGC创作神器。

② Claude

Claude，是由GPT前员工打造的AI对话写作机器人，被看作GPT最有力的竞争对手。Claude这款AI对话写作机器人可处理的任务包括——

进行自然的对话：Claude可以在对话中扮演多种角色，提供有关该角色的详细信息以及常见问题的常见问题解答，Claude将进行相关的、自然的来回对话。处理堆积如山的文本：无论你是在处理文档、电子邮件、常见问题解答、聊天记录、记录还是其他内容，Claude都会为你提供帮助。Claude可以编辑、重写、总结、分类、提取结构化数据、根据内容进行问答等等。获取答案：Claude拥有从其庞大的训练语料库中磨练出来的广泛的常识，以及技术、科学和文化知识的详细背景。Claude会说多种通用语言以及编程语言。自动化工作流程：Claude可以处理各种基本指令和逻辑场景，包括根据需要格式化输出、遵循 if-then 语句以及在单个提示中进行一系列逻辑评估。

Claude目前提供两个版本，分别为Claude和Claude Instant，前者采用Claude最强大的模型，擅长执行各种任务，从复杂的对话和创意内容生成到详细的指令遵循，后者则使用一种更快、更便宜但仍然非常强大的模型，可以处理一系列任务，包括随意对话、文本分析、摘要和文档问答。

③ Poe

Poe，是国外问答网站鼻祖Quora推出的AI对话写作机器人。Poe中集成了多个AI机器人，在提问的时候可以切换使用不同的机器人，包括：Sage、GPT-4、Claude+、Claude-instant、GPT-3.5、Dragonfly等，还支持自建机器人。

AI对话写作机器人Poe最初只有网页版，后来推出了可在电脑上使用的客户端，支持Windows和macOS系统，有需要的朋友可从Poe官网下载对应的客户端。

① Pixso AI

Pixso AI，是在线设计工具Pixso推出的AI绘画功能，它内置了多种基础 AI 绘画模型，包含2.5D渲染、二次元、产品设计、人物拟真、照片写实、建筑设计等，可生成3D电商设计图、3D立体图标、工业产品白模渲染图、卡通头像、漫画风格图片、室内设计效果图等等，基本能满足绝大部分用户的AI绘图需求。

此外，在选定一个基础模型的情况下，还可以搭配使用不同的风格模型，得到千变万化的视觉图片。

*Pixso AI基础模型

下面列出了 Pixso AI 内置的部分 AI 绘画模型，最左侧的是基础模型，冒号右侧的是基础模型下可搭配使用的风格模型——

2.5D渲染：玻璃质感图标、大头娃娃模型、国风娃娃模型、Q版娃娃模型、儿童3D插画、3D写实渲染、3D卡通渲染、3D香水瓶渲染、白模渲染（产品渲染图）二次元：黑白漫画线条、多视图、新中式群饰、80年代、光线艺术、璀璨星空、逆光、极简、剪纸背景、糖水风格、光与影、机甲、御水、油画、治愈系插画、华丽裙饰人物拟真：相机胶片、黑白漫画线条、多视图、新中式群饰、逆光、剪纸背景、拍立得、机甲、御水、油画、华丽裙饰

*Pixso AI基础模型和风格模型

Pixso AI绘画的使用步骤：以电商产品渲染图为例

随着AI绘画工具在设计行业普及开来，不少设计师也开始在自己的工作流中加入了AI绘画工具，让AI工具来承担一部分原本需要自己亲力亲为的工作。

下面以电商产品渲染图为例，与各位分享使用Pixso AI绘画生成渲染图的步骤：

首先更改AI绘画所使用的基础模型，点击面板右侧的「照片写实」，在弹出的浮窗，选择「2.5D渲染」模型。

选好基础模型后，我们可以点击下方的「添加风格模型」，配置风格模型，让两个模型共同作用，影响最终生成的图片。

下图右侧是Pixso AI绘画功能内置的多款风格模型，其中与电商产品渲染图相关的模型为3D香水瓶渲染、白模渲染。如果要生成与前面类似的渲染图，这里可以选择「白模渲染」。

在面板的右下角，我们还可以从电脑本地上传图片，或是从内置的图库中选择一张图片，作为AI绘画的参考图。

参考图库提供了 3 种类别的图片，每种类别内部又进行了细分——

产品设计：小家电、沙发椅子、鞋子人物姿势：站姿、蹲姿坐姿服装设计：上身装、下身装、全身装

*Pixso AI绘画参考图库

从图库中选取了一张「耳机」图片作为参考图，同时将参考方式更改为「线稿转化」，并在左侧底部的输入框中输入「创意描述」，即AI绘画提示词，点击下方的「立即生成」，即可轻松生成一张电商产品的渲染图。

② Stable Diffusion

如果有一个文本转图像模型可以与Midjourney相媲美，那么就是Stable Diffusion。与Midjourney不同的是，Stable Diffusion是一个免费的开源模型。此外，它可以安装在至少拥有8GB VRAM的本地个人电脑上。Stable Diffusion已经被许多网站和应用程序用于从文本输入快速生成图像。

Stable Diffusion基于Latent Diffusion Models、Eleuther AI、LAION、OpenCLIP、OpenAI的ADM代码库、CompVis等开发。该公司已在公开发布了Stable Diffusion 2.1版本，并最近还宣布了Stable Diffusion XL的Beta版本。

尽管Stable Diffusion生成的图像质量仍然不及Midjourney，但最新的SDXL测试版正试图使其达到Midjourney的水平。Stable Diffusion的一个关键问题是无法正确呈现眼睛、手和手指，以至于在人像中看起来不够自然。

值得一提的是，Stable Diffusion网页版提供了一定的免费额度，用完之后想继续用它来生成新的图片，就得自行在电脑本地部署Stable Diffusion的模型，这对非技术从业者来说比较困难。

③ Bing Image Creator

Bing Image Creator，是微软推出的AI绘画工具，它不仅上线了一个独立的站点，还将AI绘画功能集成到了new Bing中。你现在可以在new Bing界面中通过prompts生成图像。

但是，你必须使用“创意”模式来触发Bing AI Image Creator。它由OpenAI的DALL·E模型提供支持，在new Bing上创建图像目前没有限制。因此，它可以视为必应搜索中的一项免费服务存在。

Bing Image Creator不擅长生成人脸，而且质量比Midjourney低一个档次，但总的来说瑕不掩瑜，即使是在理解抽象概念上，它依旧拥有非常不错的表现。

虽然目前大部分人都无法用上Sora，但我们可以从Sora官网或者社交媒体上，在线查看使用Sora生成的视频片段——

Prompt：美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。

Prompt：动画场景的特写是一个毛茸茸的小怪物跪在融化的红色蜡烛旁边。艺术风格是 3D 和现实的，重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。

Prompt：两只金毛在山顶上录制播客。

与DALL-E 3、StableDiffusion和Midjourney等文本到图像生成AI模型一样，Sora是一种扩散模型。这意味着它从由静态噪声组成的视频的每一帧开始，并使用机器学习逐渐将图像转换为类似于提示中的描述的内容。Sora生成视频最长可达60秒。

解决时间一致性的问题

Sora的一个创新领域是它同时考虑多个视频帧，这解决了物体移入和移出视野时保持物体一致的问题。譬如在下面的视频中，袋鼠的手多次移出镜头，当它返回时，手看起来与之前相同。

结合扩散模型和Transformer模型

Sora将扩散模型与GPT所使用的Transformer架构相结合。

在结合这两种模型类型时，Jack Qiao指出“扩散模型非常擅长生成低级纹理，但在全局合成方面较差，而Transformer则存在相反的问题。”也就是说，你需要一个类似GPT的Transformer模型来确定视频帧的高级布局，并需要一个扩散模型来创建细节。

在一篇有关Sora实现的技术文章中，OpenAI提供了有关此模型组合如何工作的描述。在扩散模型中，图像被分解为更小的矩形“块”。对于视频来说，这些补丁是三维的，因为它们会随着时间的推移而持续存在。补丁可以被认为相当于大型语言模型中的“tokens”：它们不是句子的组成部分，而是一组图像的组成部分。模型的Transformer部分组织补丁，模型的扩散部分生成每个补丁的内容。

这种混合架构的另一是，为了使视频生成在计算上可行，创建补丁的过程使用降维步骤，这样就不需要对每个帧的每个像素进行计算。

通过重述提高视频保真度

为了更好地理解用户输入的描述性提示，Sora使用了DALL-E 3正在使用的重述技术。这意味着在创建任何视频之前，GPT用于重写用户提示以包含更多细节。本质上，它是自动提示工程的一种形式。

Sora可用于从头开始创建视频或扩展现有视频以使其更长。它还可以填充视频中丢失的帧。

就像AI绘画工具使无需图像编辑专业知识的图像创建变得更加容易一样，Sora承诺使无需图像编辑经验的视频创建变得更加容易。以下是未来使用Sora的一些场景，分享出来供各位参考：

社交媒体

Sora可用于创建发布在短视频、长视频平台的视频内容。难以拍摄或无法拍摄的内容尤其适合。例如，拍摄2056年的拉各斯场景在技术上很难实现，但使用Sora就可以轻松创建。

广告与营销

传统上，制作广告、宣传视频和产品演示的成本很高。像Sora这样的文本转视频人工智能工具有望使这一过程变得更加便宜。在下面的视频示例中，想要宣传加利福尼亚州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头，或者他们可以使用Sora直接生成，从而节省时间和金钱。

原型设计和概念可视化（生成demo）

即使最终产品中未使用人工智能视频，它也有助于快速展示想法。电影制作人可以在拍摄前使用人工智能来制作场景模型，设计师可以在构建产品之前创建产品视频。在下面的示例中，玩具公司可以先生成新海盗船玩具的AI模型，然后再大规模创建它们。

以上就是对AI文本生成视频模型Sora的详细介绍，如果你还有任何想了解的内容，欢迎在下方的评论区留言~看到定会回复哒！