分享好友 最新动态首页 最新动态分类 切换频道
OpenAI持续12天发布会过半,谷歌深夜截胡式炸场:Gemini 2.0来了,一切为了Agent!
2024-12-29 09:55

作者|周雅

OpenAI持续12天发布会过半,谷歌深夜截胡式炸场:Gemini 2.0来了,一切为了Agent!

这边OpenAI持续12天的直播连续剧还没完结,那边谷歌已经坐不住了开始放大招,火药味溢出屏幕。

就在北京时间12月11日深夜23:30,谷歌正式发布Gemini 2.0,标志着其向能够独立完成复杂任务的AI系统迈出了雄心勃勃的一步。并且谷歌基于这次版本更新,一次性发布多个AI Agent(智能体)成果,包括:

用多模态理解现实世界的智能体「Project Astra」这次升级了技能;发布Project Mariner,一个建立在 Gemini 2.0之上的新智能体,可以帮忙浏览网页,并处理复杂任务;发布Jules,一个由 Gemini 2.0驱动的新型编码智能体,主要面向开发者;以及发布一些用于游戏、机器人、深度研究场景的智能体,用实力诠释什么叫做“要啥有啥”。除了智能体系列霸屏之外,谷歌此次还官宣了第六代TPU——Trillium正式面向客户开放。

Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)在寄语里直言:“Gemini 2.0是谷歌迄今为止最强大的模型,它能够构建新的AI智能体,从而让我们离构建通用助手的愿景更进一步。”桑达尔·皮查伊第一时间发了推文,向开发者安利这款模型。

Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)的社交平台截图

不难看出,这次谷歌的强势出手,都是围绕一个主轴——AI智能体(Agent)。其实不止谷歌,很多AI巨头,尤其是以 OpenAI、Anthropic 和谷歌为首,一直是AI智能体的布道者。桑达尔·皮查伊在这次发布的致辞中,将AI智能体描述为“能够更多地了解你周围的世界、提前思考多个步骤、并在你的监督下代表你采取行动的模型”。

在这次发布前夕的媒体沟通会上,Google DeepMind Gemini产品管理总监Tulsee Doshi指出:“Google DeepMind研究AI智能体能力已经有很长一段时间了,我认为这个特定词在过去几个月已经有了新的含义。”以Project Astra为例,它的核心原则是拥有眼睛、耳朵和声音的智能体,可以识别并理解物理世界,并与人交互,帮人做事。

谈及背后逻辑,Google DeepMind Project Astra项目产品经理徐Bibo Xu在采访中指出,在技术发展方向上,谷歌正在平衡两个关键领域:一方面继续扩大模型规模,提升基础性能;另一方面,加强后期训练优化和推理技术的改进,尤其关注多模态能力的提升,希望让AI能更好地理解和处理各类信息。

Google DeepMind团队透露,明年初将推出Gemini 2.0系列模型的更多版本,大家很快就能见识到Gemini更强大的表现。

Gemini 2.0:为Agent而生

去年年底,Gemini 1.0问世。Gemini 1.0和1.5是谷歌第一个基于多模态的模型,它支持多模态和长上下文,可以理解文本、视频、图像、音频和代码中的信息,并处理更多信息。

一年后的今天,谷歌发布 Gemini 2.0 系列模型中的第一个版本:Gemini 2.0 Flash 体验版。在MMLU-Pro基准测试中,2.0 Flash的速度是1.5 Pro的两倍。

在功能方面,2.0 Flash 除了能够支持图片、视频和音频等多模态输入,它还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。而且,它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

谷歌特别强调了对开发者的赋能。官网资料里提到,Gemini 2.0 Flash 现在可以通过谷歌的两款生成式AI产品—— Google AI Studio 和 Vertex AI 中的 Gemini API 获取,所有开发者均可使用「多模态输入」和「文本输出」,可使用原生文本转语音和图像的生成功能。该产品将于2025年1月份上市,到时候Gemini 2.0将迎来更多版本型号。

为了帮助开发者构建动态和交互式应用程序,谷歌还发布了最新 Multimodal Live API,它具有实时音频、视频流输入、以及使用多个组合工具的能力。

谷歌强调,在接下来的几个月里,将把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平台。开发人员可以在Gemini Code Assist中注册使用Gemini 2.0 Flash,以便在流行的ide(如Visual Studio Code、IntelliJ、PyCharm等)中增强编码辅助功能。

而对于更广泛的个人用户,全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择,来体验2.0 Flash 体验版,并且该版本将很快在 Gemini 移动应用中推出。2025年初,谷歌还会将 Gemini 2.0 扩展到更多产品中。

比如,Gemini 2.0 的高级推理能力将融入谷歌搜索中的AI概览(AI Overviews),以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。该功能本周已经进行了小范围测试,明年初将在更大范围推出。

Agent!Agent!还是Agent!

这次发布或许最重要的是,谷歌推出了一批基于 Gemini 2.0 架构的原型 AI智能体,展示了在该领域的野心。其中包括:

1、Project Astra大幅升级,用于探索未来通用AI助手能力的研究原型。

Project Astra的首次亮相是在今年5月份的Google I/O 大会上,当时科技行者在现场目睹了那次发布,在演示视频中,Project Astra通过手机摄像头能看见、能识别、能理解物理世界的周围环境,还能解答用户提问并提供即时反馈。当时在现场收获了一阵掌声。

而现在,基于 Gemini 2.0 版本的Project Astra,进行了一系列升级,谷歌对此又发了一支演示视频。

看起来,进化后的Project Astra与人交互更自然了,这次的更新具体而言覆盖了方方面面:

首先,它实现了更流畅的对话。演示视频中可见,Project Astra可以在多种语言之间进行自然对话,比如法语和泰米尔语,能理解不同口音和生僻单词。

其次,它能调用新工具。看起来是通过文本、语音、图像和视频回答问题并执行任务,并在需要时调用现有的谷歌应用,如搜索、地图和摄像头。“它融合了我们这个时代一些最强大的信息检索系统。”Bibo Xu在这次媒体沟通会上说道。

第三,它有了更强的记忆力。演示视频中,Project Astra 能够记住门禁密码,并且过了一段时间被问到时,还是能准确回忆起门禁密码。在整个测试过程中,即使经过多个不同场景的对话,Project Astra仍能准确调取之前存储的信息。

关于Project Astra的记忆能力,Bibo Xu在媒体沟通会上介绍,Project Astra 拥有两种记忆能力,一个是「图形记忆能力」,最多可以记住10分钟内看到的每一个画面像素;另一个是「对话记忆能力」,最多可以存储60段历史对话,并在需要时调用这些内容。

据悉,谷歌正在将Project Astra的功能植入自家产品中,比如Gemini app、智能眼镜等。而且即将开放给一批“受信任的测试人员”,测试 Project Astra 在原型智能眼镜上的表现。

2、除了Project Astra的升级之外,谷歌此次还发布一个新的智能体Project Mariner。

Project Mariner能够理解和推理浏览器页面中的信息(包括像素、文本、代码、图像和表单等),然后通过Chrome 扩展程序使用这些信息,为用户完成复杂任务。

谷歌指出,在 WebVoyager 基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率,达到了最先进的水平。


从安全性的角度考虑,谷歌在博客中强调:“正在积极研究新型风险和应对措施,始终保持有人类的参与和监督。例如,Project Mariner 只能在浏览器上的活动标签页中键入、滚动或单击,而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。”

3、面向开发者的编码智能体Jules。

谷歌这次发布的另一个新智能体,是专门面向开发者的编码智能体Jules,它可以直接集成到 GitHub 工作流程中来协助开发者工作。

对于开发者来说,比写代码更头疼的可能是找bug,而现在,可以将Python和Javascript编码任务交给Jules,Jules可以处理bug修复和其他耗时的任务,它可以有效修改多个文件,甚至拉取请求来直接将修复返回到GitHub,那么开发者就可以专注于其他任务。

4、更多“智能体们”,用于游戏、机器人、研究等更多领域。

除了上述“叫得上名字的”智能体之外,谷歌这次还演示了一些内置在Gemini 2.0的“智能体们”,用于游戏、机器人、研究等更多领域。

“Google DeepMind 一直以来都在利用游戏帮助AI模型更好地遵守规则、进行规划、并运用逻辑思维。”谷歌在官网资料里指出。比如在上周,谷歌推出了Genie 2,一个可以从单个图像创建无限多种可玩 3D 世界的 AI 模型。

而这次,谷歌基于Gemini 2.0 构建了一些智能体,专门用于游戏场景。演示视频中可见,该智能体可以根据屏幕上的实时画面,分析游戏情况,并提供下一步操作建议;此外,当被用户问到游戏知识时,它还能调用搜索,检索到相关知识并给出建议。

为了进一步探索智能体在游戏领域的应用,谷歌正在与Supercell等游戏开发团队合作,通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估智能体们理解游戏规则、应对挑战的能力。

除了探索虚拟世界的智能体能力外,谷歌还将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。不过谷歌方面指出,这项研究仍处于初期阶段。

此外,谷歌在 Gemini Advanced 中还引入了一项名为“深度研究(Deep Research)”的新代理功能,这是一个研究助手,可以深入研究复杂主题并为创建包含相关来源链接的报告。该功能自今日起对 Gemini Advanced 用户开放。

“思维链是我们思考如何构建模型的重要组成部分。”Tulsee Doshi在媒体采访中指出,比如AlphaCode和AlphaProof,这些都是能够展示深度思维和推理时间的真正强大模型,它们能够在代码和数学方面提升性能。

值得一提的是,谷歌这次依然特别强调了安全与责任的重要性,为此制定了“负责任的AI”原则,在数据处理、模型训练等各个环节都实施了严格的安全把关。

谷歌在对外发布资料里强调了秉持“负责任的AI”原则

Gemini 2.0背后的功臣:第六代Trillium

如此密集的AI智能体们,以及承载这些智能体的AI大模型们,给硬件基础设施带来了特殊挑战。因为这些模型需要巨大的计算能力和专门的硬件来有效地处理训练、微调和推理。

十多年前,谷歌开始开发定制的人工智能加速器——张量处理单元(TPU),它集成了软硬件、机器学习框架、以及大模型,以满足人工智能工作负载不断增长的需求,为多模态人工智能铺平道路。

桑达尔·皮查伊在寄语里把Gemini 2.0的进展一部分归功于TPU。他写道:“Gemini 2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入,它基于我们定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持。”谷歌第六代TPU Trillium发布于今年5月份的Google I/O大会上。

而现在,谷歌宣布第六代 TPU Trillium正式面向客户开放。

相比于上一代,第六代Trillium训练成绩提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,每个芯片的峰值计算性能提高了4.7倍,HBM (High Bandwidth Memory)容量翻倍,ICI (Interchip Interconnect)带宽增加一倍。

谷歌Cloud计算与人工智能基础设施副总裁Mark Lohmeyer在官方资料里指出,这些增强功能使Trillium能够在广泛的人工智能工作负载中脱颖而出,包括:扩展AI训练工作量、培训法学硕士包括密集和混合专家(MoE)模型、推理性能和集合调度、Embedding-intensive模型、提供培训和推理性价比等。

谷歌第六代 TPU Trillium

结合这次整场发布可以看出,谷歌正在努力平衡AI的加度和深度思考能力,希望找到一个既能快速响应、又能进行深度推理的平衡点,目标是将这些先进技术以最实用的方式带给用户和产业。这个过程虽然充满挑战,但也充满希望。

最新文章
亚马逊运营攻略:主要运营内容与策略解析(2025年版)
《亚马逊电商平台的运营之道》任何店铺的蓬勃发展都离不开精心的运营,而亚马逊这一电商巨头的成功,更是离不开其独特的运营模式。亚马逊电商平台近年来迅速崛起,以其丰富的技术解决方案致力于提供最佳客户体验。那么,亚马逊的运营秘诀究
三、文案策划与写作的心得体会
在数字化时代的浪潮中人工智能()的崛起为文案策划与写作带来了革命性的变革。不仅可以高效地生成大量文本还能按照客户需求和情感实精准定位使得文案更具吸引力。本文将深入探讨在文案策划与写作中的应用分析其实训报告、课程学、心得体会
数商云智慧医疗管理系统解决方案:医药电商系统实现智能化改造
现在的互联网智慧医疗系统拥有强大的技术优势,支持连接政府、医疗服务机构、医药研发与流通、康养等,构建医疗大健康产业云生态,助力数字化升级。【数 商 云】医疗系统平台开发服务商依托基础设施能力、人才优势与大数
江门企业品牌影响力提升,百度优化推广助力抢占市场制高点
江门正规百度优化推广服务,致力于帮助企业提升品牌知名度,抢占市场制高点,实现品牌影响力飞跃。随着互联网的飞速发展,企业营销策略也在不断更新,百度作为一种高效、精准的营销手段,已成为众多企业提升品牌知名度、抢占市场先机的首选
谷歌浏览器 免费下载google
谷歌浏览器 免费下载google,一般又称谷歌浏览器。Google Chrome 是一款快速、易用且安全的网络浏览器。此版 Chrome 是专为 Android 设计的,不仅可为您量身推荐新闻报道,还有快速链接指向您所收藏的网站和下载的内容,甚至还内置了 Googl
有专门看台湾剧的app 可观看台剧的app推荐
近年来,台剧在各大颁奖典礼上频频获奖,备受瞩目。许多网友表示台剧质量不断提高,越来越精彩。特别是单身题材的剧集,受到了高度关注和口碑赞扬。追看台剧已经成为一种时尚潮流。那么,有专门看台湾剧的app呢?下面为大家推荐几款可供观
真没想到,科大讯飞玩这招,火出天际。
大家好,我是微笑。大家是否还记得,我上个月给大家推荐过讯飞大模型,当时 1 天直接注册了 1800 +用户。为啥呢?因为它的用户体验足够好,有很多直接落地的方案,让我们普通人可以在生活、工作中
Web Scraper(网页爬虫插件) v1.79.3 免费安装版
Web Scraper Chrome插件是一款网站数据提取工具,可以帮助不懂代码的用户实现数据爬取功能。使用此扩展,您可以创建一个sitemap(站点地图),包含该如何遍历网站以及应提取哪些内容等。使用这些sitemap,Web Scraper将相应地导航站点并提
刷题7
1. 利用回溯算法求解八皇后问题 2. 利用回溯算法求解 0-1 背包问题3. 利用分治算法求一组数据的逆序对个数5. 最小路径和(详细可看 Minimum Path Sum)6. 编程实现莱文斯坦最短编辑距离7. 编程实现查找两个字符串的最长公共子序列8. 编程实
相关文章
推荐文章
发表评论
0评