分享好友 最新动态首页 最新动态分类 切换频道
一键点、万物动!腾讯、清华、港科大联合推出全新图生视频大模型
2024-12-26 12:50

腾讯联手清华大学和香港科技大学,于3月15日推出了划时代的图像转视频技术,“跟随你的点击”(Follow-Your-Click)。这项技术让用户仅通过简单点击图片的某个区域并输入几个关键字,就能将图片中的静态部分变为动态视频,实现了一种前所未有的创意表达方式。

在电影、增强现实、游戏开发和广告行业等领域,图像转视频技术开辟了新的可能性,被视为2024年AI领域的一个热点。随着AI视频生成技术的不断进步,我们正处于一个AI技术革命的前夜,预示着无限的未来可能。

这款名为“跟随你的点击”的创新模型,改变了以往图像转视频技术中需要繁琐描述和控制的局限,带来了更加自然和直观的用户体验。传统方法中,用户需要详细描述想要动画化的区域和动作,而且往往会影响到整个场景的移动,缺乏精确度和灵活性。

而腾讯的这项新技术,依托于混元大模型团队的领先研究,为用户提供了一种简单而直观的操作方式,通过简单的点击和提示词输入,即可激活图片中任何一个静态区域,转化为生动的视频内容。这不仅是技术的一大步,也为内容创造提供了更宽广的天地。

此外,腾讯混元大模型团队的持续创新和探索,已经在多模态技术领域取得了显著成就,如与《人民日报》合作,利用大模型技术制作出《江山如此多娇》视频,展示了模型对内容理解、逻辑推理和图像生成的强大能力。

腾讯混元大模型的成功运用,展现了大模型技术在实际应用场景中的潜力,标志着腾讯在全球技术舞台上的领导地位。随着这项技术的不断发展和完善,未来我们可以期待更多创新应用的出现,推动多个行业的进步和变革。

新技术涌现,哪些领域最受益?

最近,AI视频生成技术的领域发生了一系列激动人心的变化,标志着我们正步入一个全新的创意和技术革新时代。这些进展不仅扩展了我们对AI能力的认知,也预示着未来创作和互动方式的根本转变。

首先,OpenAI在2月15日发布的Sora模型,为全球AI视频生成领域带来了颠覆性的进展。Sora能够根据文本描述或已有图片生成视频,支持长达一分钟的视频制作,并且能够处理包含多个角色、特定类型的运动以及精确的主题和背景细节等复杂场景。这不仅在视频清晰度、连贯性、理解能力、一致性和时长等方面取得了巨大进步,也为创作者和研究者提供了前所未有的创作工具。

紧随其后的是谷歌Deep Mind团队于2月26日发布的Genie模型,这一110亿参数的AI基础世界模型开启了图文生成交互世界的新时代。Genie通过解析一张图片,就能生成一个用户可以自由探索和交互的虚拟世界。这标志着我们向实现通用AI Agent迈出了重要一步。

这两项技术的发布,不仅引发了网络的热烈讨论,也推动了AI概念股在资本市场的大幅波动。据平安证券指出,随着Sora和Genie这样的多模态大模型的发布,我们可能正迎来通用人工智能(AGI)的加速发展。

长江证券进一步分析了Genie在视频游戏和机器人领域的潜在影响。Genie不仅可能引领视频游戏领域的一场革命,通过简单的图片或草图提示生成可交互、动作可控的游戏环境,还可能为机器人领域培养通用智能体提供了新的途径。Genie通过学习控制机器人手臂进行各种操作的视频,掌握了一组统一的动作模式,这些动作不仅可应用于虚拟世界,也可迁移到真实世界中,开辟了AI智能体训练的新天地。

2月28日,阿里巴巴智能计算研究所引领AI技术新潮流,发布了名为EMO的创新生成式AI模型。这款模型通过结合单张人物肖像照片和音频,能让照片中的人物模仿音频内容进行“说话”或“唱歌”,同时保持口型、面部表情和头部姿势的自然和一致性。EMO模型的推出,为多模态视频AI领域带来了前所未有的新玩法和可能性。

不同于仅依赖文本描述生成视频的Sora模型,EMO着重于图像加音频生成视频的技术路线。用户仅需提供一张人物照片和一段人声音频,无论音频的语速如何,EMO都能生成表情丰富、动作自然的声音肖像视频。这种技术相比于之前的产品,如PIKA,展现了更高的灵活性和自然性。PIKA由于架构限制,仅能生成短暂的唇形同步视频,而EMO能够根据音频的时长,生成相应长度的视频,保持角色的一致性,使得生成的视频更加生动和富有情感。

随着全球AI视频生成技术的飞速发展,我国也在加速追赶国际步伐,掀起了AI视频技术的新浪潮。根据长江证券的分析,未来AI结合IP、游戏、影视、电商和广告等领域的商业化应用将提供丰富的投资机会。国泰君安进一步指出,随着AI视频类模型的日益成熟,影视制作的全过程都将从AI模型的迭代中受益,预示着影视产业将深度融合AI技术,开创新的发展局面。

最新文章
AI新职业“报考火热”,协会人工智能训练师培训体系获官媒广泛报道
ArtificialIntelligence IndustryNews“人工智能训练师”作为数字经济时代催生的新职业,在《广州企业紧缺急需职业(工种)目录(2024年)》中上榜。深圳、珠海、佛山等地市也正在计划将人工智能训练师纳入紧缺工种。为进一步推动该职业的
2025电气工程学科专业考研难度排名
在选择研究生专业时,许多考生都会关注“电气工程考研专业排名与竞争情况”。了解这些信息不仅可以帮助你做出更明智的选择,还能为你的复习和准备提供参考。本文将从多个维度为你解析电气工程专业的排名及其竞争态势。电气工程作为一个广泛
C++快速排序及优化方案详解
首先设定一个分界值,通过该分界值将数组分成左右两部分。将大于分界值的数据集中到数组右边,小于分界值的数据集中到数组的左边,而等于分分界值的部分放在相对中间的部分。此时,左边部分中各元素都小于分界值,而右边部分中各元素都大于
iPhone年度最佳应用Kino:打破专业壁垒的小白视频拍摄神器
通过对Kino的使用体验分析,用户可以发现在主界面右侧的操作区域内设置曝光模式、视频规格,以及剩余存储空间的可录制时长等信息,这些直观而清晰的显示无疑为拍摄提供了便利。在音频录制方面,Kino还加入了实时监测左右声道音量的功能,这
2024深圳宝安云海臻府售楼中心电话|深圳宝安云海臻府最新优惠价格-得房率-交房时间-楼盘详情
开发商背景千亿国企特区建发集团,具有全国示范性作用的新型城市发展综合运营商特区建发集团作为深圳国企,精耕深圳十余载,成功打造及运营了西丽留仙洞的创智云城、光明凤凰城的乐府广场等优质标杆项目,秉承“引领产城人融合,促进新型城
2024年-2025年折叠屏销量下滑 2025年新品手机仅32款
根据Counterpoint Research的最新报告,2024年和2025年折叠智能手机市场预计将出现停滞甚至下滑。数据显示,折叠式智能手机显示屏在2024年第三季度的出货量已同比首次下降,且这一趋势预计将持续至2025年。市场领军者三星的Galaxy Z Flip 6
Android系统在超级终端下必会的命令大全(adb shell命令大全)
用超级终端在手机刷 recovery方法:安装好超级终端从网上下载好对应的 recovery.img文件,更改名字为123.img(名字随便,如1.img 2.img........)将123.img复制到SD卡根目录打开超级终端 输入su按确认(按回车)然后输入 再输入 flash_image
2024TCL全球技术创新大会发布全领域全场景AI应用等创新成果
中证网讯(记者 万宇)12月11日,TCL举办了以“AI·显见未来”为主题的2024 TCL全球技术创新大会(TIC2024),聚焦AI应用、智能终端、半导体显示、新能源光伏等领域。基于以上领域,TCL发布16项技术突破,包括5项全领域全场景AI应用。2024
3D2021年周六走势图近500期
功能类福彩3D显示遗漏:显示/隐藏遗漏值,遗漏值是指自上期开出到本期间隔的期数。福彩3D遗漏分层:是将当前遗漏值用柱状图形标注。福彩3D分段线:是每五期使用分隔线,使横向导航更加清晰。福彩3D显示断区:在分区走势中使用,将开出0个号
FSM Graph Generator开源有限状态机图生成工具
标题中的“FSM graph generator-开源”指的是一个用于生成有限状态机(Finite State Machine, FSM)图的开源软件。这个工具特别关注于两种类型的状态机:确定性有限自动机(Deterministic Finite Automaton, DFA)和非确定性有限自动机(No
相关文章
推荐文章
发表评论
0评