【观察】从文生视频到世界模型，广电的机遇与选择

【观察】从文生视频到世界模型，广电的机遇与选择

2024-12-26 15:07

导读

2月16日凌晨，全球首个文生视频大模型Sora惊艳亮相，再次让人类被人工智能的“无限可能”所震撼，引发全球科技界关于人工智能的新一轮热议。马斯克称：“完胜人类”。英伟达CEO黄仁勋认为，AI正触及“临界点”。苹果公司首席执行官库克表示，生成式人工智能具有惊人的突破潜力，苹果公司将大力投资人工智能。Sora的横空出世，是生成式人工智能发展的重要里程碑，标志着人类加速迈向智慧文明新时代。

一、Sora是什么

Sora以与人类作品“难分伯仲”的逼真视频惊艳全球，人们惊呼“现实，不存在了”“现实的边界正在数字世界中变得愈发模糊”。Sora究竟是什么，凭什么让全球为之震惊？

首先，Sora是文生视频大模型，具有超级强大的视频生成能力。

Sora可根据用户提示的文本，创建最长60秒、具有多个角色、包含特定运动复杂场景的视频，其逼真的效果令人叹为观止。美国社交媒体X（原Twitter）用户认为，Sora“完胜皮克斯”“完胜好莱坞”，马斯克甚至评论说“完胜人类”（Gg humans）。

更重要的是，Sora粗具“世界模型”特征，将加速通用人工智能发展。

Sora引发全球高度关注与热议，不仅是因为它生成的视频时间更长、清晰度更高、更逼近人类作品，更因为其演进速度之快。美国伊利诺伊大学厄巴纳-香槟分校信息科学教授泰德·安德伍德（Ted Underwood）表示：“我原以为，就算是在未来的2-3年，视频制作也难以达到这样持续、连贯的水平。”Sora的横空出世，更加速通用人工智能（AGI）的到来。360集团创始人、董事长周鸿祎认为，随着Sora的到来，人类离AGI真的就不远了，不是10年、20年的问题，可能一两年很快就可以实现。

但最令人震惊的还是Sora已经具备对世界的感知、观察和交互以及模拟物理世界中物体运动和交互的能力。从这个意义上来说，Sora是一款“世界模型”（World Models），生成视频不过是它对世界感知和交互的一种表达。OpenAI在《Sora技术报告》中已经宣告，Sora视频生成模型是世界模拟器（Video generation models as world simulators），采用了游戏、无人驾驶和机器人领域验证的世界模型来构建文生视频模型，以达到模拟世界的能力，让文生视频生成更流畅、更符合逻辑，而且降低了训练成本，提升了训练效率。OpenAI表示，他们正在训练人工智能理解和模拟运动中的物理世界，帮助人们解决需要与现实世界交互的问题。英伟达人工智能研究院首席研究科学家吉姆·梵（Jim Fan）认为，Sora是一个“数据驱动的物理引擎”，一个可学习的模拟器或“世界模型”。有评价认为，Sora堪称建立起“世界模型”的标杆，将人工智能对真实物理世界的建模和预测推向了新高度。但图灵奖获得者、Meta首席科学家杨立昆（Yann LeCun）对此持不同意见，认为Sora并非世界模型。虽然如此，科技界普遍认为，文生视频大模型是通向世界模型以及通用大模型的重要路径之一。

世界模型是人工智能下一个重大突破点，也是通用人工智能的重要支撑。目前，全球众多人工智能大模型企业正在围绕世界模型开始新一轮的“超级赛事”。2月26日，谷歌公布了世界模型领域相关进展。据其官网介绍，大模型Genie是根据互联网视频训练的基础世界模型。

二、Sora意味着什么

Sora不仅展示了人工智能在生成视频方面的“高智商”与“超能力”，而且初步展示了世界模型“无限可能”的“彪悍”，一个高度智能化甚至智慧化的人类社会不再是科幻，而是触手可及。

（一）泛视听产业革命已然来临，创意将成为核心竞争力

从2023年开始，生成式人工智能就已经对全球动画行业产生了巨大冲击。Sora展现的文生视频大模型的超强能力，标志着人工智能生成内容（AIGC）的时代已然到来。泛视听行业迎来颠覆性的变革，全球泛视听市场格局将为之调整和重构。

一是广电和网络视听生产方式将发生根本性的变革。文生视频大模型将成为视听行业重要基础设施，视听内容生产制作的技术门槛将降低为零，人们的任何创意，都可以无障碍地转化为视频，甚至是院线电影，旧的生产方式和基础设施面临淘汰。好莱坞导演泰勒・派瑞（Tyler Perry）在看完Sora制作的视频后，直接搁置了自己8亿美元工作室扩建计划。在Sora推出第二天，美国主营图像处理、视频制作软件的Adobe成为遭受Sora收割的“重灾区”，在Sora问世当天，公司股价大跌7.41%。YouTube大V帕迪·盖罗维（Paddy Galloway）在观看Sora生成的视频后感慨地说：“内容创作永远改变了，这不是夸张。”美国旧金山投资人扎克·库可夫（Zak Kukoff）预测，在5年内，一个不到5人的团队将可用文生视频模型制作出一部票房收入超过5000万美元的电影。

二是视频游戏、虚拟现实、元宇宙等泛视听行业将迎来重大变革。《Sora技术报告》显示，Sora能够模拟视频游戏数字化过程，可在控制玩家（Minecraft）游戏角色进行基本操作的同时，高质量动态渲染游戏世界。这意味着，视频游戏的制作门槛和成本将大幅降低。英伟达等公司正尝试用大模型让游戏“非玩家游戏角色”（NPC）脱离剧本与玩家自由交流，甚至成功使用AI创造了动作类游戏《赛博朋克2077》中的场景。中国游戏公司网易手游作品《逆水寒》，成为全球首个大规模落地人工智能玩法的AI游戏，玩家们不需要任何设备或技术，就可完成选角、取景、拍摄等核心任务，只需要根据脑海中的角色形象，输入文字或者上传角色形象照片，即可借助AI生成符合描述的“角色演员”。巨人网络积极布局多模态大模型，聚焦游戏垂类创作场景，重点对AI视频生成、3D模型生成算法的稳定性、可控性进行深入研究与探索，已将自研AI视频风格迁移技术广泛应用于研运环节，赋能内容创意表达。

长期以来，内容产能不足一直是制约虚拟现实和元宇宙产业发展的瓶颈。文生视频大模型强大的内容生产能力，将直接推动虚拟现实和元宇宙行业腾飞。美国人工智能公司Takeoff AI创始人麦凯·瑞格（Mckay Wrigley）认为，Sora所代表的视频生成新技术，最直接最大受益者可能是虚拟现实，5年后，人们将能够生成完全沉浸式的世界中。

当技术不再成为竞争壁垒，创意将成为核心竞争力。培养创意人才、营造激发并保护人才的创意能力的环境和生态，将成为行业高质量发展乃至赢得国际竞争的根本。

（二）构建智慧社会底座，世界模型广泛赋能千行百业

Sora展示了世界模型在更广泛领域中应用的巨大潜能。随着世界模型的成熟以及在各个垂直领域的落地应用，各行各业将创造出超级智能工具，正如文生视频大模型将是泛视听行业超级智能工具一样。马斯克认为，“AI增强的人类将在未来几年里创造出最好的作品”。Sora背后的大模型一旦与传统行业深度融合，将极大地释放大模型的产业价值。在无人驾驶、人形机器人、智能终端、数字生物工程等领域，世界模型的强大功能已经初露锋芒。

一是引领无人驾驶革命。世界模型具有理解环境以及和环境交互的能力，具有生成高质量驾驶视频和用于端到端驾驶的巨大潜力，美国特斯拉纯视觉无人驾驶采用的正是世界模型，而且已经采用路面真实视频数据进行训练。在OpenAI 推出sora后，马斯克受到极大刺激，放出一段视频并说明特斯拉从2023年开始就生成视频了，并表示，特斯拉正致力于构建一种能够理解和模拟任意情境的强大通用世界模型，目标是打造一个能够在全世界范围内安全、高效、类人化驾驶的通用栈，无论何种速度或道路条件均能胜任。2月28日，德国汽车企业博世与微软联合开发生成式AI产品，旨在强化自动驾驶功能、提高车辆安全性。

二是为人形机器人注入“灵魂”。3月1日，OpenAI、亚马逊、英伟达、微软向类人机器人企业Figure投资6.75亿美元。OpenAI还将为Figure人形机器人打造多模态大模型，人形机器人将拥有自己的“大脑”，可在真实的物理环境中执行各种任务。

三是智能终端更加智能和智慧。在智能终端领域，生成式人工智能已经赋能智能手机，并加速换机潮的到来。2024年1月，三星推出搭载了谷歌大模型的AI手机Galaxy S24，28天突破100万部销量，打破了该机型销售纪录。比尔·盖茨认为，5年内，人工智能助理（AI Agent）将大行其道，每个用户都将拥有一个专属AI Agent，智能终端将更加智能和智慧。

（三）各国加速布局人工智能产业，美国保持全球领先地位

世界模型是智慧世界的“超级大脑”和“超级平台”，是驱动数字经济、数字社会的主引擎，将成为各国综合国力竞争的制高点。英伟达创始人黄仁勋认为，“每个国家都需要拥有自己的人工智能”，并提出“主权大模型”概念。

世界发达国家早已布局人工智能产业，并将人工智能作为未来产业发展重点。2019年2月7日，美国前总统特朗普正式签发由白宫科技政策办公室（OSTP）炮制的报告《美国将主导未来产业》，强调美国一定要主宰人工智能、量子信息、先进通信、先进制造、生物技术等未来产业发展，在国际竞争中保持领导地位。英国瞄准了人工智能、机器人、先进医疗、清洁能源等产业；德国专注于人工智能、量子计算、6G通信、医药创新；日本提出“社会5.0”，致力于在机器人、人工智能、前沿材料、生命科学等领域实现突破，建立“超智慧社会”。2月17日，日本软银集团CEO孙正义表示，正在寻求最多1000亿美元的资金，为一家芯片企业提供资金，与英伟达展开竞争。在日本，图片和视频类的生成式人工智能已经越来越多地被应用在动画、设计以及广告等领域，并着力开发基于日语数据的人工智能。2月28日，阿联酋阿布扎比主权财富基金穆巴达拉投资公司CEO穆巴拉克（Khaldoon Mubarak）表示，2024年将向AI和太空技术领域投入大量资金。

从全球情况来看，美国无疑处于全球人工智能产业的主导地位。

一是原创大模型企业高度集中。美国拥有全球最多的原创大模型研发机构。除Open AI外，谷歌和Meta都是全球大模型重要玩家。2月9日，谷歌宣布大模型Gemini Ultra免费使用；2月16日，谷歌上线闭源大模型Gemini 1.5，将上下文窗口长度扩展到100万个tokens；2月21日，谷歌发布开源大模型 Gemma，主打轻量级、高性能。谷歌还与美国社交媒体平台Reddit达成每年6000万美元的合作协议，将其内容用于训练大模型。2023年1月，Meta CEO马克·扎克伯格宣布Meta AI正在训练更强大的Llama 3，并计划在7月正式发布。就在Sora发布的同一天，Meta发布“以人类理解方式看世界”的视频联合嵌入预测架构V-JEPA（Video Joint Embedding Predictive Architecture）。3月4日，　人工智能创业公司Anthropic在社交平台X上宣布，发布大模型Claude 3，成为首个全面超越GPT-4的人工智能模型Anthropic被视为OpenAI最大的竞争对手，背后的大投资者有谷歌和亚马逊，与OpenAI背后的微软形成直接竞争。

二是高端芯片产业独步全球。美国拥有世界上最先进的芯片设计和制造技术，英特尔（Intel）、高通（Qualcomm）、苹果（Apple）等在全球市场中占据重要地位。2月26日，美国商务部部长吉娜·雷蒙多（Gina Raimondo）表示，2030年，美国在全球先进光刻技术芯片生产服务市场的份额将达到20%，美国也有望成为世界上唯一能研发新型芯片架构的国家。美国高端芯片巨头英伟达（Nvidia）占据全球图形处理器GPU市场的大部分份额，占全球高端AI芯片市场90%的份额。3月5日，英伟达股价持续大涨，成为微软、苹果之后全球市值第三大公司。

三是积极培育产业链上下游和生态。据媒体报道，OpenAI将募集7万亿美元，打造人工智能生态。Meta拟投资105亿美元建设人工智能基础设施，Meta还计划在2024年将生成型人工智能技术应用到其核心社交媒体产品和硬件设备中。2月27日，Meta平台CEO马克·扎克伯格会见韩国LG电子高层管理人员，讨论在扩展现实（XR）设备领域以及人工智能（AI）领域合作的可能性。英伟达在基础机器人技术领域取得突破性进展，并努力将“AI工厂”转化为实际产品，打造全新形态的数据中心。美国无人驾驶、AI手机等也都在加速发展，并加速布局AI战斗机。据《华尔街日报》3月3日报道，美国空军计划生产的AI智能战斗机，前100架将在未来五年内交付。

三、广电怎么办

Sora是文生视频领域的重大突破，也是人工智能发展的一个重要里程碑，标志着人类社会向智慧社会迈进的世界模型底座业已启动。中国高度重视人工智能产业发展，2月19日，国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会，要求中央企业加快布局和发展智能产业，加快构建数据驱动、人机协同、跨界融合、共创分享的智能经济形态。3月5日，国务院政府工作报告明确提出深化大数据、人工智能等研发应用，开展“人工智能+”行动。视听节目是文生视频大模型乃至世界模型底座这一基础设施建设的重要生产资料，视听行业也是生成式人工智能第一落地应用场景，不论是模型的研发还是应用，广播电视网络视听行业都具有重要作用和地位。广电应发挥自身优势，积极参与文生视频大模型以及世界模型的研发。

（一）加快视听大模型研发，以新质生产力实现高质量发展

视听大模型在加速进化和落地应用，对视听行业的革命性影响不断显现。广电机构已经部署视听垂直模型的研发，并取得突破性进展。2024年2月23日，中央广播电视总台发布了动画大模型，中国首部文生视频AI系列动画片《千秋诗颂》启播。2月25日，上海广播电视台成立生成式人工智能媒体融合创新工作室，确立了财经媒体专属AI大模型、新闻资讯类大模型应用、智能语音和大语言模型应用、智能手语数字人、生成式智能与多媒体通信、人工智能应用下的传媒伦理研究等六大重点攻坚方向，构建国内领先的文化传媒大模型应用生态。一些生产制作企业和网络视听平台也在积极应用人工智能优化流程，降本增效。尤其是在短视频、短剧、动画行业，人工智能极大地提高了生产效率。

更多互联网企业正在布局文生视频大模型。2024年1月，百度发布名为UniVG的视频生成模型；2月28日，李彦宏表示，多模态或多模态的融合是AGI的一个必要方向，百度已经并将继续投资大模型研发。2月28日，阿里巴巴上线了生成式AI模型EMO，用户只需要提供一张照片和一段任意音频文件，EMO即可生成会说话唱歌的AI 视频，以及实现无缝对接的动态小视频，最长时间可达1分30秒左右。字节跳动正在研发多个人工智能产品，包括多模态数字人产品以及AI生图、AI生视频等。

广播电视网络视听作为文生视频大模型最早落地的应用场景，要加快与人工智能行业合作，部署视听大模型研发，打造从基础设施、算法工具、智能平台到解决方案的视听大模型，加快推动全产业链AI化，形成新质生产力，实现高质量发展。

（二）培育优质生产要素，深度参与智慧社会建设

视频是训练世界模型的主要数据形态，一幅图、一段视频的信息量胜过千言万语。广播电视网络视听不仅仅是文生视频大模型最直接、最早落地的应用场景，而且拥有规模庞大的视听节目资源，是训练文生视频大模型以及世界模型的宝贵资源，是驱动世界模型“成长发育”不可或缺的“主食”。尤其是中国视听节目已经过严格的审核，具有较高的意识形态和价值观安全系数，是世界模型训练的优质资源，是建设智慧社会不可或缺的生产资料。

广电行业要主动开放开发视听节目优质数据资源，构建优质数据集，积极参与各类模型的研发与应用，实现数据资源流通使用，形成优质数据资产。首先，以视听节目数据资源为抓手，参与游戏、虚拟现实、元宇宙等垂直模型的研发，形成泛视听大生态，不断孵化培育新业务新业态。其次，以泛视听数据化生产资料为抓手，积极参与世界模型和通用人工智能的研发，成为智慧社会运行的底层数据资产，不仅实现从视听数据到智慧社会的闭环，而且将为中国更快更好进入智慧社会作出不可替代的重要贡献。

（三）制定审慎包容的监管政策，营造有利于创新发展的良好环境

和任何技术一样，生成式人工智能毫无疑问也是一把双刃剑。用好这把“超级智慧双刃剑”，需要超越大模型的“超级智慧”。尤其是在生成式人工智能研发初期，更要采取审慎包容的监管态度，营造鼓励探索和创新的发展空间。

一是采用负面清单形式，明确大模型禁止落地应用的场景和领域，充分保障企业科技创新和经营自主权，营造技术产业蓬勃发展的宽松环境。

二是引入“监管沙盒”理念，允许人工智能企业在可管可控环境下进行试验性开发和测试，降低研发成本和监管成本，提高研发效率。

三是建立互信的政企合作关系，发挥行业自律的基础性作用。企业虽然是监管对象，但同时也是人工智能研发主体和平台运营主体，既掌握算法也掌握平台，企业自我约束是实现人工智能安全和科技向善的根本保障。如，Sora内置的文本提示过滤器可阻止对暴力、色情、仇恨等不当内容的请求，视频内容过滤器可检查生成的视频帧，屏蔽违反OpenAI安全政策的内容；2024年2月16日，亚马逊、谷歌、微软、Meta、OpenAI、TikTok和X等美国科技公司签署了一份承诺协议，防止虚假的人工智能内容扰乱2024年美国及全球选举投票。

未来已来。发挥自身优势，拥抱技术革命，广电未来可期。

（作者单位：国家广播电视总局发展研究中心）

轮值主编：朱新梅

后期编辑：张庆男