一键点、万物动！腾讯、清华、港科大联合推出全新图生视频大模型

一键点、万物动！腾讯、清华、港科大联合推出全新图生视频大模型

2024-12-26 12:50

腾讯联手清华大学和香港科技大学，于3月15日推出了划时代的图像转视频技术，“跟随你的点击”（Follow-Your-Click）。这项技术让用户仅通过简单点击图片的某个区域并输入几个关键字，就能将图片中的静态部分变为动态视频，实现了一种前所未有的创意表达方式。

在电影、增强现实、游戏开发和广告行业等领域，图像转视频技术开辟了新的可能性，被视为2024年AI领域的一个热点。随着AI视频生成技术的不断进步，我们正处于一个AI技术革命的前夜，预示着无限的未来可能。

这款名为“跟随你的点击”的创新模型，改变了以往图像转视频技术中需要繁琐描述和控制的局限，带来了更加自然和直观的用户体验。传统方法中，用户需要详细描述想要动画化的区域和动作，而且往往会影响到整个场景的移动，缺乏精确度和灵活性。

而腾讯的这项新技术，依托于混元大模型团队的领先研究，为用户提供了一种简单而直观的操作方式，通过简单的点击和提示词输入，即可激活图片中任何一个静态区域，转化为生动的视频内容。这不仅是技术的一大步，也为内容创造提供了更宽广的天地。

此外，腾讯混元大模型团队的持续创新和探索，已经在多模态技术领域取得了显著成就，如与《人民日报》合作，利用大模型技术制作出《江山如此多娇》视频，展示了模型对内容理解、逻辑推理和图像生成的强大能力。

腾讯混元大模型的成功运用，展现了大模型技术在实际应用场景中的潜力，标志着腾讯在全球技术舞台上的领导地位。随着这项技术的不断发展和完善，未来我们可以期待更多创新应用的出现，推动多个行业的进步和变革。

新技术涌现，哪些领域最受益？

最近，AI视频生成技术的领域发生了一系列激动人心的变化，标志着我们正步入一个全新的创意和技术革新时代。这些进展不仅扩展了我们对AI能力的认知，也预示着未来创作和互动方式的根本转变。

首先，OpenAI在2月15日发布的Sora模型，为全球AI视频生成领域带来了颠覆性的进展。Sora能够根据文本描述或已有图片生成视频，支持长达一分钟的视频制作，并且能够处理包含多个角色、特定类型的运动以及精确的主题和背景细节等复杂场景。这不仅在视频清晰度、连贯性、理解能力、一致性和时长等方面取得了巨大进步，也为创作者和研究者提供了前所未有的创作工具。

紧随其后的是谷歌Deep Mind团队于2月26日发布的Genie模型，这一110亿参数的AI基础世界模型开启了图文生成交互世界的新时代。Genie通过解析一张图片，就能生成一个用户可以自由探索和交互的虚拟世界。这标志着我们向实现通用AI Agent迈出了重要一步。

这两项技术的发布，不仅引发了网络的热烈讨论，也推动了AI概念股在资本市场的大幅波动。据平安证券指出，随着Sora和Genie这样的多模态大模型的发布，我们可能正迎来通用人工智能（AGI）的加速发展。

长江证券进一步分析了Genie在视频游戏和机器人领域的潜在影响。Genie不仅可能引领视频游戏领域的一场革命，通过简单的图片或草图提示生成可交互、动作可控的游戏环境，还可能为机器人领域培养通用智能体提供了新的途径。Genie通过学习控制机器人手臂进行各种操作的视频，掌握了一组统一的动作模式，这些动作不仅可应用于虚拟世界，也可迁移到真实世界中，开辟了AI智能体训练的新天地。

2月28日，阿里巴巴智能计算研究所引领AI技术新潮流，发布了名为EMO的创新生成式AI模型。这款模型通过结合单张人物肖像照片和音频，能让照片中的人物模仿音频内容进行“说话”或“唱歌”，同时保持口型、面部表情和头部姿势的自然和一致性。EMO模型的推出，为多模态视频AI领域带来了前所未有的新玩法和可能性。

不同于仅依赖文本描述生成视频的Sora模型，EMO着重于图像加音频生成视频的技术路线。用户仅需提供一张人物照片和一段人声音频，无论音频的语速如何，EMO都能生成表情丰富、动作自然的声音肖像视频。这种技术相比于之前的产品，如PIKA，展现了更高的灵活性和自然性。PIKA由于架构限制，仅能生成短暂的唇形同步视频，而EMO能够根据音频的时长，生成相应长度的视频，保持角色的一致性，使得生成的视频更加生动和富有情感。

随着全球AI视频生成技术的飞速发展，我国也在加速追赶国际步伐，掀起了AI视频技术的新浪潮。根据长江证券的分析，未来AI结合IP、游戏、影视、电商和广告等领域的商业化应用将提供丰富的投资机会。国泰君安进一步指出，随着AI视频类模型的日益成熟，影视制作的全过程都将从AI模型的迭代中受益，预示着影视产业将深度融合AI技术，开创新的发展局面。