关注公众号,发现CV技术之美
大规模视频生成基座模型在今年取得了显著进展,但如何在生成过程中保持人物身份信息的一致性,仍然是一个亟待解决的技术难题。例如现有的生成模型生成时序过程中,人物的外貌和身份特征往往会逐渐发生失真,导致人物面貌的变化,无法在视频的整个时序中维持一致性。这一问题限制了模型在诸如虚拟主播、数字双胞胎和互动电影等场景中的实际应用效果。
最近,来自北京大学的研究团队发布了一个视频生成的可控生成工作:ConsisID,其针对人脸的特征特性以及DIT的架构特性,设计了合理的控制信号及训练策略,成功实现了无需训练、高质量、可编辑、一致性强的身份保持视频生成,为数字内容创作注入全新活力与无限可能。
低频特征的重要性:在扩散模型中,浅层(例如,低层、低频)特征对于像素级预测任务至关重要,因为它们能够缓解模型训练的难度。U-Net通过长跳跃连接将浅层特征聚合到解码器,而DiT并不具备这种机制; 高频特征的重要性:Transformers对高频信息的感知能力有限,而高频信息对于保留面部特征是重要的。U-Net的编码器-解码器架构天然具有多尺度特征(例如高频丰富性),而 DiT 缺乏类似的结构;
鉴于以上发现一,作者首先提出一个全局的面部特征提取器获取低频特征,这里采用的是裁剪的人脸图以及人脸的5个关键图RGB图,并采用视频VAE提取latent tokens,和视频的带噪音的latent tokens拼接在一起送入DiT模型中。
鉴于以上发现二,作者然后提出一个局部的面部特征提取器获取高频特征,这里是采用CLIP和人脸识别模型分别提取人脸特征,并通过一个Q-Former模块来融合特征,并在DiT的Attention和FFN之间新插入Corss Attention来注入融合的特征。
在训练过程中,作者从训练帧中随机选择一帧,并应用Crop & Align提取面部区域作为参考图像,随后将其用作身份控制信号,与文本一起作为控制。
在训练阶段,将分辨率设置为 480×720,从每个视频中提取 49 帧连续帧,步长为 3 作为训练数据。将批大小设置为 80,学习率设置为,总训练步骤数为 1.8k。分类自由引导随机空文本比例设置为 0.1,AdamW 作为优化器,学习率调度器使用 cosine_with_restarts。训练策略与第 3.2.3 节相同。将动态跨面部损失 (Le) 和动态mask损失 (Lf) 中的 和 设置为 0.5。
在推理阶段,使用 DPM,采样步骤为 50,文本引导比例为 6.0。
由于缺乏评估数据集,选择了 30 名未包含在训练数据中的人,并从互联网上为每个身份来源了五张高质量的图像。然后,设计了 90 个不同的提示,涵盖了各种表情、动作和背景进行评估。基于以往的研究 [15, 38],从四个维度进行评估:
(1).身份保持:使用 FaceSim-Arc 并引入 FaceSim-Cur,通过测量生成视频中面部区域与真实面部图像在 ArcFace 和 CurricularFace 特征空间中的特征差异来评估身份保持。
(2).视觉质量:作者通过计算生成帧与真实面部图像在 InceptionV3 特征空间中的面部区域特征差异来使用 FID进行评估。
(3).文本相关性:作者使用 CLIPScore 来测量生成的视频与输入提示之间的相似性。
(4).运动幅度:由于缺乏可靠的度量标准,作者通过用户研究进行评估。
本节将 ConsisID 与 ID-Animator(例如,唯一可用的开源模型)进行比较,以进行无需调优的 IPT2V 任务。作者随机选择了四个个体的图像和文本提示进行定性分析,这些个体均不包含在训练数据中。
相比之下,ID-Animator 并未针对 IPT2V 进行优化,仅部分保留了面部特征,导致 FaceSim-Arc 和 FaceSim-Cur 的分数较低。在文本相关性方面,ConsisID 不仅通过提示控制表情,还调整动作和背景,取得了更高的 CLIPScore。
为了评估发现1和发现2的有效性,对不同的信号注入方法进行了消融实验。具体来说,这些实验包括:
(a)仅将低频面部信息和关键点注入噪声潜在空间, (b)仅将高频面部信号注入注意力块, (c)结合(a)和(b), (d)基于(c),但低频面部信息不包含关键点, (e - f)基于(c),但高频信号注入到注意力块的输入或输出, (g)仅将高频面部信号注入注意力块之前。
如下图3所示,傅里叶谱和傅里叶变换的对数幅度显示,注入高频或低频信号确实增强了生成面部的相应频率信息。此外,低频信号通过与面部关键点的匹配可以进一步增强,而将高频信号注入注意力块具有最高的特征利用率。
作者的方法(c)展现了最强的高频和低频,进一步验证了发现1和发现2所带来的效率收益。为了减少开销,对于每个身份,作者仅选择2张参考图像进行评估。
ConsisID,一个通过频率分解保持面部一致性的视频生成统一框架。它能够无缝集成到现有的基于DiT的文本到视频(T2V)模型中,用于生成高质量、可编辑、符合身份保持要求的视频。大量实验表明,ConsisID超越了当前最先进的身份保持T2V模型。研究结果表明,基于频率感知的DiT控制方案是IPT2V生成的最佳解决方案。
ConsisID在电影、短视频、广告、教育和娱乐等领域具有广泛的应用潜力。
通过这项技术,电影制作者可以快速生成符合剧本要求的虚拟人物和场景,使得创作过程更加高效。短视频平台也能通过文本描述生成定制化的视频内容,满足用户个性化需求,提高观众的观看体验和参与度。
在广告行业,品牌方可以根据受众的兴趣和特点,生成具有一致身份特征的广告内容,提升品牌形象和转化率。教育领域可以利用这一技术创建个性化的教学视频或虚拟导师,帮助学生更好地理解课程内容,并提高学习体验。
娱乐行业也能通过自动生成与用户兴趣相匹配的虚拟角色或情节,增强互动性和沉浸感。ConsisID不仅提升了内容生产的效率,还为创作者和观众带来了更加个性化和互动的体验
参考文献
[1] Identity-Preserving Text-to-Video Generation by Frequency Decomposition
欢迎加入「视频生成」交流群