分享好友 最新动态首页 最新动态分类 切换频道
Adobe&MIT-新研究:AI-视频边生成边播放-首帧延迟-1.3-秒、生成速度-9.4-帧-/-秒
2024-12-27 05:11

AI 生成视频,边生成边实时播放,再不用等了!Adobe 与 MIT 联手推出自回归实时视频生成技术 ——CausVid。

思路就像从下载整部电影到直接观看流媒体的转变,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。

如果你用过视频生成模型,一定对漫长的等待时间记忆深刻,生成一段 10 秒的视频,往往需要等待好几分钟才可以开始观看。

研究团队表示,这一延迟的根本原因在于:传统视频生成模型普遍采用的双向注意力机制,每一帧都需要参考前后帧的信息。

这就像写故事时必须先构思好整个剧情的所有细节才能动笔,在完整视频生成完毕前,你看不到任何画面。

为此,他们提出了一种全新的解决方案,通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。

实验中,CausVid 基于自回归生成的特性,无需额外训练就能支持多种应用,生成速度和质量均显著超越现有方法。

研究团队还表示将很快开源基于开源模型的实现代码。

用双向教师监督单向自回归学生模型

如前所述,研究团队通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。

为了进一步提速实现实时视频生成,作者通过分布匹配蒸馏(DMD)将生成步骤从 50 步缩减到仅需 4 步。

DMD 是一种扩散模型蒸馏技术,将多步扩散模型转换为快速的单步生成器。DMD 此前已在图像生成中取得成功,Adobe Firefly 文生图的快速模式就是基于此技术。

本次研究团队将其创新性地应用到视频扩散模型中,实现了显著加速。

然而,自回归模型有一个核心难题 —— 误差累积。

每一帧视频都基于之前的帧生成,早期生成的任何细微缺陷都会被放大,导致生成的视频逐渐偏离预期轨迹。

为了解决这一问题,团队提出了非对称蒸馏策略。具体来说:

引入一个拥有未来信息的双向教师模型,在蒸馏训练阶段指导自回归的单向学生模型。这种教师-学生结构允许模型在生成未来帧时具备更强的精确度。

使用双向教师模型生成的的噪声-数据配对来预训练单向学生模型,提升其后蒸馏训练过程的稳定性。

在训练过程中,针对不同时间点的视频帧施加不同强度的噪声,这一策略使模型能够在测试时基于干净的已生成帧对当前帧进行去噪。

通过这种创新性的非对称蒸馏方法,CausVid 显著减少了自回归模型的误差累积问题,并生成了更高质量的视频内容。

这种非对称蒸馏形式中,学生模型和教师模型使用了不同的架构,而这只有在 DMD 风格的蒸馏中才可行。其他方法,例如渐进式蒸馏(Progressive Distillation)或一致性模型(Consistency Distillation),都要求学生模型和教师模型使用相同的架构。

下面是自回归扩散视频模型的误差累积示例(左图)和 CausVid 结果(右图)对比:

实验效果如何?

实验中,CausVid 表现惊艳:

    首帧生成延迟从 3.5 分钟降至 1.3 秒,提速 170 倍

    生成速度从 0.6 帧 / 秒提升至 9.4 帧 / 秒,提升 16 倍

    生成质量经 VBench 和用户调查验证,优于主流模型例如 Meta 的 MovieGen 和智谱的 CogVideoX

    得益于单向注意力机制,CausVid 完全支持在大语言模型中广泛应用的 KV 缓存推理技术,从而显著提升了生成效率。结合滑动窗口机制,CausVid 突破了传统模型的长度限制。

    尽管训练阶段仅接触过 10 秒的视频,CausVid 依然能够生成长达 30 秒甚至更长的视频,其生成速度和质量均显著超越现有方法。

    基于自回归生成的特性,CausVid 无需额外训练就能支持多种应用:

      图片动画化:将静态图片自然转化为流畅视频,赋予画面生命力。

      实时视频风格转换:如将 Minecraft 游戏画面即时转换为真实场景。这一技术为游戏渲染带来全新思路:未来可能只需渲染基础 3D 几何信息,由 AI 实时补充纹理和光影

      交互式剧情生成:用户通过调整提示词,实时引导视频剧情发展,带来全新的创作体验。

最新文章
陈泽勇:抢抓西商融合机遇 加快高铁康养新城建设
近日,商州区委书记陈泽勇在杨峪河镇调研督导高铁康养新城项目建设,强调要抢抓和西商融合发展机遇,进一步坚定信心,加压奋进,以干克难,全力加快高铁康养新城项目建设。区级领导赵新选、王永生、李文涛一同督导。
百度3d实景导航地图
百度3d实景导航地图是十分不错的全新地图导航应用软件,拥有上亿用户下载使用,软件的各种功能十分的强大,非常的简洁界面,精准的定位系统,能够轻轻松松查询路段信息,输入目的地就能为你推送最优出行线路,百度地图作为新一代人工智能地
活动预告|迈璞工作站启动仪式暨“哲思与梦境”对谈
1为深入贯彻落实教育部、卫健委等十七个部门联合印发的《全面加强和改进新时代学生心理健康工作专项行动计划(2023-2025年)》,充分发挥我系丰富的学术资源和学校心理健康教育专业资源作用,挖掘和发挥朋辈力量,促进学生群体自主学习、互
网址链接跳转外部安全提醒代码
网页的安全性优化是一个越来越被开发者重视的问题,当本站链接点击跳转到第三方外链接时,要弹框提示信息,需要支持jquery引用 。
成品动漫网站入口网页版打不开怎么办?解决办法及常见问题解析
成品动漫网站作为一个热门的动漫资源平台,吸引了大量动漫爱好者的关注。对于许多人来说,访问这个网站可能并不是一件容易的事,尤其是在网页版入口的使用上。如何顺利打开成品动漫网站入口网页版,成为了许多用户关心的问题。在这篇文章中
道滘SEO优化攻略,揭秘企业线上崛起的黄金秘籍
道滘SEO优化推广,助力企业线上崛起!本文深入解析SEO优化策略,涵盖关键词研究、内容优化、外链建设等关键步骤,助企业提升网站排名,扩大网络影响力,实现线上业务增长。掌握这些秘籍,让企业轻松迈入互联网时代。随着互联网的飞速发展,
获市县综合考核一类设区市第一名
  黄健恒、中国江西新闻网全媒体记者周珺/文  全国数字经济百强城市排名跃至第56位  为加快工业发展步伐,赣州市按照“抢位发展、错位发展”的战略要求,深入实施省制造业重点产业链现代化建设“1269”行动计划,并量身打造了“7510
网站关键词优化攻略,全解析推广地址,助力网站独树一帜
关键词优化推广地址全解析,助您网站脱颖而出!通过深入分析关键词策略,精准定位目标用户,优化网站内容与布局,提升搜索引擎排名。掌握地址优化技巧,让您的网站在众多竞争者中脱颖而出,吸引更多流量。随着互联网的飞速发展,越来越多的
搜索引擎营销案例有哪些?
搜索引擎营销案例有哪些?随着互联网的发展,越来越多的产品都会采取多种多样的网络推广方式,而搜索引擎营销就是其中的一种。下面鱼爪传媒小编就给各位分享两个搜索引擎营销案例。Case1:B2C网站成功利用SEM卓越、当当在利用搜索引擎推广B
相关文章
推荐文章
发表评论
0评