昨日,OpenAI视频生成模型Sora正式版终于发布!
此次发布的Sora Turbo,为原始Sora模型的全新高端加速版本,用户不仅可以通过文字提示生成视频,还能将静态图片转化为动态视频,甚至可以对现有视频进行创意改编。
作为OpenAI“王炸”产品,Sora的诞生在全球范围引发了AI生成视频技术的热潮。激发了全球科技界对于AI生成视频技术的深入研究与讨论。2月至今,同类产品已经层出不穷,如国内的快手可灵、腾讯混元、字节跳动即梦等。
可以看到,图像和视频合成与生成模型已成为人工智能领域的新焦点。目前,扩散模型是目前生成式AI中的最核心模块,在Sora、DALL-E、Imagen等生成式AI大模型中都取得了广泛的应用。我整理了10篇图像及视频生成模型的研究论文,有想要的同学扫码领取!
回复 “生成扩散” 即可领取【图像及视频生成模型】研究论文
潜在扩散模型
LDMs
文章解析
潜在扩散模型(LDMs)是一种可以生成高质量图像的技术,它通过在简化的数据空间中进行训练,从而减少计算需求。论文将这种技术应用到高分辨率视频生成上。
首先,在图像上训练一个模型,然后通过加入时间因素,将其转变为视频生成模型,并在视频序列上进行微调。同时确保生成的视频在时间上保持一致。
研究主要应用于两个方面:模拟真实的驾驶数据和创造性的视频内容。通过在真实的驾驶视频上测试,本文的模型表现出色,并且能够将现有的图像生成模型转变为高效的视频生成模型。这一方法还可以适应不同的文本到图像模型,为个性化视频生成开辟了新的可能性。
创新点
1.潜在扩散模型的应用:首次将LDM技术扩展到高分辨率视频生成领域,提高生成效率和质量。
2.时间维度引入:通过将时间因素纳入潜在空间,实现了从图像到视频的转变,增强了动态内容生成能力。
3.时间一致性:开发了时间对齐技术,确保生成的视频在时间上保持一致性,提高了视频的连贯性和真实感。
4.实用应用:针对真实驾驶数据模拟和文本到视频创作的实际应用,展示了技术的广泛适用性。
5.个性化生成:探索个性化文本到视频生成,为未来内容创作提供了新的方向和可能性。
预训练的视频扩散模型
V3D
文章解析
论文提出了一种新颖的方法,利用预训练的视频扩散模型(Video Diffusion Models)来生成高质量的三维(3D)内容。该方法通过扩展视频扩散模型的能力,使其能够生成多视角一致的图像,进而重建出底层的3D资产。V3D不仅适用于对象级别的3D生成,还适用于场景级别的视图合成,展示了视频扩散模型在3D生成任务中的巨大潜力。
创新点
1.多视角生成框架:V3D将密集多视角合成视为视频生成问题,利用大规模预训练视频扩散模型的结构和强大先验来生成一致的多视角图像。
2.几何一致性先验:引入了几何一致性先验,通过微调视频扩散模型,使其能够生成围绕对象旋转的360°视频,从而增强多视角生成的一致性。
3.高效重建流程:设计了针对视频扩散输出的重建流程,能够快速生成高质量的3D高斯或纹理网格,整个过程在几分钟内完成。
回复 “生成扩散” 即可领取【图像及视频生成模型】研究论文
视频生成扩散模型
VideoCrafter2
文章解析
研究深入探讨了在高质量视频生成模型训练中数据限制的问题,提出了一种新的方法,利用低质量视频和高质量图像来训练出高质量的视频模型,而无需依赖高质量视频数据集。这一方法通过分析和利用视频模型中空间模块和时间模块之间的关系,实现了对模型性能的显著提升。
创新点
1.数据层面的外观与运动解耦:本文提出的核心创新点在于数据层面的外观(appearance)与运动(motion)解耦。具体来说,使用低质量视频来保证运动的一致性,同时利用高质量图像来确保画面质量和概念组合能力。这种方法打破了传统上需要高质量视频数据集的局限。
2.模块间连接强度的分析:文章详细分析了基于Stable Diffusion的视频模型中空间模块和时间模块在不同训练策略下的连接强度。通过研究发现,全训练的模型比部分训练的模型具有更强的时空耦合性,这为后续使用高质量图像微调空间模块提供了理论依据。
3.有效的微调策略:基于上述观察,本研究设计了一种有效的微调策略,即首先使用低质量视频全训练视频模型,然后使用高质量图像仅对空间模块进行微调。这种方法在不损失运动质量的前提下,显著提高了画面的质量。
视频帧插值方法
LDMVFI
文章解析
研究提出了一种新的视频帧插值方法,称为LDMVFI,它将视频帧插值视为一种生成任务。通过在多个标准测试集上的严格验证,结果表明,LDMVFI在高分辨率下能够生成视觉效果更佳的视频,优于现有的技术。
创新点
1.潜在扩散模型:首次将潜在扩散模型应用于视频帧插值(VFI),为该领域带来新的视角。
2.生成视角:将视频帧插值问题转化为条件生成任务,这种方法与传统的损失函数训练方式不同。
3.感知质量:强调感知质量的重要性,通过实验验证该方法在视觉效果上的优越性。
4.严格评估:在多个标准测试集上进行了系统的基准测试,确保结果的可靠性和有效性。
5.高分辨率表现:即使在高分辨率场景下,LDMVFI仍能保持优秀的插值质量,展示了其广泛的应用潜力。
回复 “生成扩散” 即可领取【图像及视频生成模型】研究论文