腾讯联手清华大学和香港科技大学,于3月15日推出了划时代的图像转视频技术,“跟随你的点击”(Follow-Your-Click)。这项技术让用户仅通过简单点击图片的某个区域并输入几个关键字,就能将图片中的静态部分变为动态视频,实现了一种前所未有的创意表达方式。
在电影、增强现实、游戏开发和广告行业等领域,图像转视频技术开辟了新的可能性,被视为2024年AI领域的一个热点。随着AI视频生成技术的不断进步,我们正处于一个AI技术革命的前夜,预示着无限的未来可能。
这款名为“跟随你的点击”的创新模型,改变了以往图像转视频技术中需要繁琐描述和控制的局限,带来了更加自然和直观的用户体验。传统方法中,用户需要详细描述想要动画化的区域和动作,而且往往会影响到整个场景的移动,缺乏精确度和灵活性。
而腾讯的这项新技术,依托于混元大模型团队的领先研究,为用户提供了一种简单而直观的操作方式,通过简单的点击和提示词输入,即可激活图片中任何一个静态区域,转化为生动的视频内容。这不仅是技术的一大步,也为内容创造提供了更宽广的天地。
此外,腾讯混元大模型团队的持续创新和探索,已经在多模态技术领域取得了显著成就,如与《人民日报》合作,利用大模型技术制作出《江山如此多娇》视频,展示了模型对内容理解、逻辑推理和图像生成的强大能力。
腾讯混元大模型的成功运用,展现了大模型技术在实际应用场景中的潜力,标志着腾讯在全球技术舞台上的领导地位。随着这项技术的不断发展和完善,未来我们可以期待更多创新应用的出现,推动多个行业的进步和变革。
新技术涌现,哪些领域最受益?
最近,AI视频生成技术的领域发生了一系列激动人心的变化,标志着我们正步入一个全新的创意和技术革新时代。这些进展不仅扩展了我们对AI能力的认知,也预示着未来创作和互动方式的根本转变。
首先,OpenAI在2月15日发布的Sora模型,为全球AI视频生成领域带来了颠覆性的进展。Sora能够根据文本描述或已有图片生成视频,支持长达一分钟的视频制作,并且能够处理包含多个角色、特定类型的运动以及精确的主题和背景细节等复杂场景。这不仅在视频清晰度、连贯性、理解能力、一致性和时长等方面取得了巨大进步,也为创作者和研究者提供了前所未有的创作工具。
紧随其后的是谷歌Deep Mind团队于2月26日发布的Genie模型,这一110亿参数的AI基础世界模型开启了图文生成交互世界的新时代。Genie通过解析一张图片,就能生成一个用户可以自由探索和交互的虚拟世界。这标志着我们向实现通用AI Agent迈出了重要一步。
这两项技术的发布,不仅引发了网络的热烈讨论,也推动了AI概念股在资本市场的大幅波动。据平安证券指出,随着Sora和Genie这样的多模态大模型的发布,我们可能正迎来通用人工智能(AGI)的加速发展。
长江证券进一步分析了Genie在视频游戏和机器人领域的潜在影响。Genie不仅可能引领视频游戏领域的一场革命,通过简单的图片或草图提示生成可交互、动作可控的游戏环境,还可能为机器人领域培养通用智能体提供了新的途径。Genie通过学习控制机器人手臂进行各种操作的视频,掌握了一组统一的动作模式,这些动作不仅可应用于虚拟世界,也可迁移到真实世界中,开辟了AI智能体训练的新天地。
2月28日,阿里巴巴智能计算研究所引领AI技术新潮流,发布了名为EMO的创新生成式AI模型。这款模型通过结合单张人物肖像照片和音频,能让照片中的人物模仿音频内容进行“说话”或“唱歌”,同时保持口型、面部表情和头部姿势的自然和一致性。EMO模型的推出,为多模态视频AI领域带来了前所未有的新玩法和可能性。
不同于仅依赖文本描述生成视频的Sora模型,EMO着重于图像加音频生成视频的技术路线。用户仅需提供一张人物照片和一段人声音频,无论音频的语速如何,EMO都能生成表情丰富、动作自然的声音肖像视频。这种技术相比于之前的产品,如PIKA,展现了更高的灵活性和自然性。PIKA由于架构限制,仅能生成短暂的唇形同步视频,而EMO能够根据音频的时长,生成相应长度的视频,保持角色的一致性,使得生成的视频更加生动和富有情感。
随着全球AI视频生成技术的飞速发展,我国也在加速追赶国际步伐,掀起了AI视频技术的新浪潮。根据长江证券的分析,未来AI结合IP、游戏、影视、电商和广告等领域的商业化应用将提供丰富的投资机会。国泰君安进一步指出,随着AI视频类模型的日益成熟,影视制作的全过程都将从AI模型的迭代中受益,预示着影视产业将深度融合AI技术,开创新的发展局面。