除了“用魔法打败魔法”，辨识AI视频还有哪些办法

除了“用魔法打败魔法”，辨识AI视频还有哪些办法

2024-11-07 21:14

■本报记者赵广立

“Sora之后，眼见不一定为实了。”

上面这句感慨，恐怕许多人都感同身受。只需输入一段文字描述，Sora就能生成一段长达一分钟、画面逼真、稳定连贯的高清视频。由于画面过于真实，人们仅凭肉眼很难辨别它们竟出自AI之手。

不仅能生成视频，AI还能“魔改”视频。最近，小鹏汽车研究团队提出了一个名为“任何物体在任何场景”的新型通用视频模拟框架，它能无缝地将任何物体插入到现有的动态视频中。同样，肉眼难以分辨。

真假难辨之下，越来越多的人开始担心，AI视频可能引发更多混乱。比如视频证据不再可信：“未来也许你不得不坐在法庭被告席上，观看一段连你自己都不知道的‘作案视频’。”

中国科学院自动化研究所研究员董晶研究的就是图像窜改、深度伪造等人工智能内容安全与对抗技术，她和研究团队的许多成果已应用于多媒体智能鉴伪。面对AI越来越强大的功能，技术上有哪些应对的方法和手段？普通公众面对视频内容时如何“多留几个心眼儿”，以防上当受骗？为此，《中国科学报》采访了董晶。

鉴伪仍处于被动状态

“用魔法打败魔法。”董晶说，目前技术上主要有两类智能检测方法来甄别一段视频是否为AI生成。

一种是基于数据学习的方法。这通常需要提前收集伪造视频和真实视频（最好是配对数据）作为训练数据集，训练出强大的深度网络。只要模型能够“记住”视频帧中的异常或痕迹，例如图像噪点、帧间不连续的运动轨迹等，就能辨别真伪。

董晶说，这种方法较为通用，一旦检测模型参数确定，部署简单、批量检测效果良好。但是，该方法相当依赖训练数据的体量和完备性，对于未知或未训练的数据检测通常会失效。

另一种是基于特定线索的方法。它首先需要定义出视频中一些不合常理或逻辑的视觉“线索”，如光照不一致、人脸视频中应有的活体生理信号、说话人的口型和发音时序不匹配等细节，然后设计相应的算法去提取并定位这些线索，进而取证。这种方法可解释性更好，对视频段的定向检测性能佳，但对数据本身的多样性兼容较差。

被小鹏汽车团队“魔改”的视频，就可以使用这种方法鉴别。董晶说，他们团队做了初步分析后发现，在“塞入”目标物体后，视频/图像不同帧的颜色、纹理会略有变化，“可以此为线索，在收集相关数据后进行训练和检测测试”。

不过，董晶谈到，随着Sora等工具在AI生成视频细节与多元化处理方面的能力增强，生成视频中的显式伪造痕迹会越来越少，仅依赖传统的视频分析与伪造检测方法甄别视频内容的真假，无疑会变得更加困难。

“目前针对性技术的进展还比较初步，仍需加强各类检测技术的开发和优化。”董晶告诉《中国科学报》，当前，技术方面还是沿用常规检测技术思路，因此要在构建新型伪造视频数据集的基础上，提高模型的识别能力。

同时，还需要及时更新已有视频检测模型对新型生成视频算法的兼容性。此外，还可借助数字水印、数字签名、视频检索等技术手段，加强对生成视频数据生命周期的追踪与管理。

“总体而言，目前视频内容鉴伪仍处于相对被动的状态，需要针对不断迭代升级的视频合成新算法去博弈验证。”董晶表示，尽管越来越难，但AI视频在生成过程中仍不可避免地会产生一些特定的模式或痕迹，相关检测技术也会持续利用这些肉眼不易察觉的线索来反制、分析和鉴伪。

她和团队从多个角度提出了新的检测算法。这些算法或基于重建误差，或基于多模态对比学习，或基于伪造特征纯化，均是对“新的特定鉴伪线索挖掘”的不断尝试。

推动建立具有国际共识的标准与规范

为避免引发混乱，“从源头约束”等非技术方案频频被提起。例如，有人提出，可以约定如OpenAl等相关AIGC技术主体，在生成视频之初就埋下AI生成的印记。

董晶对《中国科学报》表示，埋设标记的方法是目前可推荐的应对策略之一，但仍需克服技术上的挑战和限制，如标记的可靠性、隐蔽性、普适性等，并综合考虑隐私和安全等因素。

相对于对视频的被动检测，水印或标记属于主动防御。董晶告诉记者，其团队目前也围绕视觉生成式水印开展了一些研究工作——他们希望在目前生成式模型中加入“鲁棒水印嵌入模块”，为的是让生成的视频本身携带可见或不可见的数字水印。

他们最近还尝试了在真实图像或视频中加入“对抗噪声”，这样一来，生成模型就不能在这些源数据上进行AI合成。

除技术手段之外，董晶还提到一些非技术层面的措施。

“人们需要完善AI数据治理与AI工具使用的监管法规，同时开展科普教育，加强行业规范和公众的相关防范意识等。”董晶说，对于境外AI生成服务主体，如OpenAI，“我们呼吁推动建立具有国际共识的AI数据技术标准与规范，形成共同应对生成视频的合理标记和协同监管方案”。

董晶认为，通过规范Sora这类新型视频生成工具的使用，如对其训练所依赖的源数据集做好管理和收集、规范可能产生敏感或虚假内容的生成视频的输出和安全性测试、规范治理与管控措施，便可降低AI生成视频的滥用风险，“甄别难度不会一直增加”。

增强对虚假视频的“免疫力”

尽管认同“不应将辨别视频是否为AI生成的工作交给公众”，但董晶坚持认为，普通人还是可以在面对视频内容时“多留几个心眼儿”，以防上当受骗。

为此，董晶支了几招。

首先，观察视频细节的逻辑真实性，例如视频中人物动作、背景环境等是否与客观世界相符，人物的生理特征（如牙齿、手指、皮肤纹理、虹膜颜色等）是否符合常理。

她表示，现阶段Sora算法等能否简单便捷地大量生成高质量图像视频还是未知，从已公布的视频片段来看，其在运动上的瑕疵，仔细观察还是能够辨别的。

其次，观察视频的质量和清晰度是否均衡。一般而言，AI生成的视频可能会在画面质量、清晰度等方面存在一些瑕疵，例如图像模糊、画面抖动等。

最后，检查视频的内容逻辑是否合理，比如内容和情节是否合理和连贯。如有疑虑，可进一步查看视频来源、发布平台、评论、格式和制作时间等信息是否可信或一致。还可以借助一些专门用于检测AI生成视频的技术工具和软件交叉验证。

董晶表示，在视频聊天等交互场景下，可以主动要求对方转为侧脸、靠近或远离镜头等加以甄别，因为现有伪造技术对较大运动变化的预测和生成效果相对较差。

除此之外，董晶提醒，在当下复杂的媒介和舆论环境之下，普通公众应积极学习相应知识、适当了解AI生成的机制和破绽，以备不时之需。