ConsisID：北大等提出基于频域分解的身份保真文本到视频生成模型

ConsisID：北大等提出基于频域分解的身份保真文本到视频生成模型

2024-12-27 05:40

关注公众号，发现CV技术之美

大规模视频生成基座模型在今年取得了显著进展，但如何在生成过程中保持人物身份信息的一致性，仍然是一个亟待解决的技术难题。例如现有的生成模型生成时序过程中，人物的外貌和身份特征往往会逐渐发生失真，导致人物面貌的变化，无法在视频的整个时序中维持一致性。这一问题限制了模型在诸如虚拟主播、数字双胞胎和互动电影等场景中的实际应用效果。

最近，来自北京大学的研究团队发布了一个视频生成的可控生成工作：ConsisID，其针对人脸的特征特性以及DIT的架构特性，设计了合理的控制信号及训练策略，成功实现了无需训练、高质量、可编辑、一致性强的身份保持视频生成，为数字内容创作注入全新活力与无限可能。

低频特征的重要性：在扩散模型中，浅层（例如，低层、低频）特征对于像素级预测任务至关重要，因为它们能够缓解模型训练的难度。U-Net通过长跳跃连接将浅层特征聚合到解码器，而DiT并不具备这种机制；
高频特征的重要性：Transformers对高频信息的感知能力有限，而高频信息对于保留面部特征是重要的。U-Net的编码器-解码器架构天然具有多尺度特征（例如高频丰富性），而 DiT 缺乏类似的结构；

鉴于以上发现一，作者首先提出一个全局的面部特征提取器获取低频特征，这里采用的是裁剪的人脸图以及人脸的5个关键图RGB图，并采用视频VAE提取latent tokens，和视频的带噪音的latent tokens拼接在一起送入DiT模型中。

鉴于以上发现二，作者然后提出一个局部的面部特征提取器获取高频特征，这里是采用CLIP和人脸识别模型分别提取人脸特征，并通过一个Q-Former模块来融合特征，并在DiT的Attention和FFN之间新插入Corss Attention来注入融合的特征。

在训练过程中，作者从训练帧中随机选择一帧，并应用Crop & Align提取面部区域作为参考图像，随后将其用作身份控制信号，与文本一起作为控制。

在训练阶段，将分辨率设置为 480×720，从每个视频中提取 49 帧连续帧，步长为 3 作为训练数据。将批大小设置为 80，学习率设置为，总训练步骤数为 1.8k。分类自由引导随机空文本比例设置为 0.1，AdamW 作为优化器，学习率调度器使用 cosine_with_restarts。训练策略与第 3.2.3 节相同。将动态跨面部损失 (Le) 和动态mask损失 (Lf) 中的和设置为 0.5。

在推理阶段，使用 DPM，采样步骤为 50，文本引导比例为 6.0。

由于缺乏评估数据集，选择了 30 名未包含在训练数据中的人，并从互联网上为每个身份来源了五张高质量的图像。然后，设计了 90 个不同的提示，涵盖了各种表情、动作和背景进行评估。基于以往的研究 [15, 38]，从四个维度进行评估：

(1).身份保持：使用 FaceSim-Arc 并引入 FaceSim-Cur，通过测量生成视频中面部区域与真实面部图像在 ArcFace 和 CurricularFace 特征空间中的特征差异来评估身份保持。

(2).视觉质量：作者通过计算生成帧与真实面部图像在 InceptionV3 特征空间中的面部区域特征差异来使用 FID进行评估。

(3).文本相关性：作者使用 CLIPScore 来测量生成的视频与输入提示之间的相似性。

(4).运动幅度：由于缺乏可靠的度量标准，作者通过用户研究进行评估。

本节将 ConsisID 与 ID-Animator（例如，唯一可用的开源模型）进行比较，以进行无需调优的 IPT2V 任务。作者随机选择了四个个体的图像和文本提示进行定性分析，这些个体均不包含在训练数据中。

相比之下，ID-Animator 并未针对 IPT2V 进行优化，仅部分保留了面部特征，导致 FaceSim-Arc 和 FaceSim-Cur 的分数较低。在文本相关性方面，ConsisID 不仅通过提示控制表情，还调整动作和背景，取得了更高的 CLIPScore。

为了评估发现1和发现2的有效性，对不同的信号注入方法进行了消融实验。具体来说，这些实验包括：

（a）仅将低频面部信息和关键点注入噪声潜在空间，
（b）仅将高频面部信号注入注意力块，
（c）结合（a）和（b），
（d）基于（c），但低频面部信息不包含关键点，
（e - f）基于（c），但高频信号注入到注意力块的输入或输出，
（g）仅将高频面部信号注入注意力块之前。

如下图3所示，傅里叶谱和傅里叶变换的对数幅度显示，注入高频或低频信号确实增强了生成面部的相应频率信息。此外，低频信号通过与面部关键点的匹配可以进一步增强，而将高频信号注入注意力块具有最高的特征利用率。

作者的方法（c）展现了最强的高频和低频，进一步验证了发现1和发现2所带来的效率收益。为了减少开销，对于每个身份，作者仅选择2张参考图像进行评估。

ConsisID，一个通过频率分解保持面部一致性的视频生成统一框架。它能够无缝集成到现有的基于DiT的文本到视频（T2V）模型中，用于生成高质量、可编辑、符合身份保持要求的视频。大量实验表明，ConsisID超越了当前最先进的身份保持T2V模型。研究结果表明，基于频率感知的DiT控制方案是IPT2V生成的最佳解决方案。

ConsisID在电影、短视频、广告、教育和娱乐等领域具有广泛的应用潜力。

通过这项技术，电影制作者可以快速生成符合剧本要求的虚拟人物和场景，使得创作过程更加高效。短视频平台也能通过文本描述生成定制化的视频内容，满足用户个性化需求，提高观众的观看体验和参与度。

在广告行业，品牌方可以根据受众的兴趣和特点，生成具有一致身份特征的广告内容，提升品牌形象和转化率。教育领域可以利用这一技术创建个性化的教学视频或虚拟导师，帮助学生更好地理解课程内容，并提高学习体验。

娱乐行业也能通过自动生成与用户兴趣相匹配的虚拟角色或情节，增强互动性和沉浸感。ConsisID不仅提升了内容生产的效率，还为创作者和观众带来了更加个性化和互动的体验

参考文献

[1] Identity-Preserving Text-to-Video Generation by Frequency Decomposition

欢迎加入「视频生成」交流群

最新文章

活动预告｜迈璞工作站启动仪式暨“哲思与梦境”对谈
1为深入贯彻落实教育部、卫健委等十七个部门联合印发的《全面加强和改进新时代学生心理健康工作专项行动计划（2023-2025年）》，充分发挥我系丰富的学术资源和学校心理健康教育专业资源作用，挖掘和发挥朋辈力量，促进学生群体自主学习、互

网址链接跳转外部安全提醒代码
网页的安全性优化是一个越来越被开发者重视的问题，当本站链接点击跳转到第三方外链接时，要弹框提示信息，需要支持jquery引用。

职规赛院系风采｜美术学院、国际商学院、国际汉语文化学院举办第二届大学生职业规划大赛院赛
大学生职业规划大赛第二届编辑 / 乔晨曦、赵琪校对 /张玉如

成品动漫网站入口网页版打不开怎么办？解决办法及常见问题解析
成品动漫网站作为一个热门的动漫资源平台，吸引了大量动漫爱好者的关注。对于许多人来说，访问这个网站可能并不是一件容易的事，尤其是在网页版入口的使用上。如何顺利打开成品动漫网站入口网页版，成为了许多用户关心的问题。在这篇文章中

道滘SEO优化攻略，揭秘企业线上崛起的黄金秘籍
道滘SEO优化推广，助力企业线上崛起！本文深入解析SEO优化策略，涵盖关键词研究、内容优化、外链建设等关键步骤，助企业提升网站排名，扩大网络影响力，实现线上业务增长。掌握这些秘籍，让企业轻松迈入互联网时代。随着互联网的飞速发展，

获市县综合考核一类设区市第一名
　　黄健恒、中国江西新闻网全媒体记者周珺/文　　全国数字经济百强城市排名跃至第56位　　为加快工业发展步伐，赣州市按照“抢位发展、错位发展”的战略要求，深入实施省制造业重点产业链现代化建设“1269”行动计划，并量身打造了“7510

网站关键词优化攻略，全解析推广地址，助力网站独树一帜
关键词优化推广地址全解析，助您网站脱颖而出！通过深入分析关键词策略，精准定位目标用户，优化网站内容与布局，提升搜索引擎排名。掌握地址优化技巧，让您的网站在众多竞争者中脱颖而出，吸引更多流量。随着互联网的飞速发展，越来越多的

搜索引擎营销案例有哪些？
搜索引擎营销案例有哪些？随着互联网的发展，越来越多的产品都会采取多种多样的网络推广方式，而搜索引擎营销就是其中的一种。下面鱼爪传媒小编就给各位分享两个搜索引擎营销案例。Case1：B2C网站成功利用SEM卓越、当当在利用搜索引擎推广B

揭开亚马逊广告关键词“质量得分”的神秘面纱
在亚马逊广告中，有这样一个指标，它实际存在，但是却无法用具体数据来进行衡量。而这个指标，对亚马逊广告的影响非常大。这个神秘的广告指标，就是关键词的质量得分。不畏浮云遮望眼，自缘身在最高层！今天，吴老师就带领大家揭开关键

谷歌seo优化和百度的区别_谷歌搜索优化seo
谷歌SEO优化和***的区别谷歌SEO优化和***的区别主要集中在搜索引擎的算法和优化方式上。谷歌更注重网站的内容质量和用户体验，对网站的内容原创度、页面质量、网站速度等方面要求更高，同时对外链的质量也有一定要求。而***相对来说更注重

相关文章

ChatGPT和百度文心一言写用例，谁更强？

推荐文章

重大通报“新西游是不是有挂”分享装挂步骤技巧

苹果首次开放第三方NFC支付

百度站长、SEO、收录，网站自动提交百度链接 vuejs

电网大数据分析

职场宝典：如何撰写出色简历

用AI轻松生成逼真美女写真，教你如何一键拥有梦中女友！

Portainer--Docker的图形化管理工具

微信小程序必须是公司吗,复刻版正品数据_标准版453

《K》动漫周边（官网图+画集+图标）

python爬取网页图片并下载

发表评论
0评