作者|周雅
这边OpenAI持续12天的直播连续剧还没完结,那边谷歌已经坐不住了开始放大招,火药味溢出屏幕。
就在北京时间12月11日深夜23:30,谷歌正式发布Gemini 2.0,标志着其向能够独立完成复杂任务的AI系统迈出了雄心勃勃的一步。并且谷歌基于这次版本更新,一次性发布多个AI Agent(智能体)成果,包括:
用多模态理解现实世界的智能体「Project Astra」这次升级了技能;发布Project Mariner,一个建立在 Gemini 2.0之上的新智能体,可以帮忙浏览网页,并处理复杂任务;发布Jules,一个由 Gemini 2.0驱动的新型编码智能体,主要面向开发者;以及发布一些用于游戏、机器人、深度研究场景的智能体,用实力诠释什么叫做“要啥有啥”。除了智能体系列霸屏之外,谷歌此次还官宣了第六代TPU——Trillium正式面向客户开放。
Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)在寄语里直言:“Gemini 2.0是谷歌迄今为止最强大的模型,它能够构建新的AI智能体,从而让我们离构建通用助手的愿景更进一步。”桑达尔·皮查伊第一时间发了推文,向开发者安利这款模型。
Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)的社交平台截图
不难看出,这次谷歌的强势出手,都是围绕一个主轴——AI智能体(Agent)。其实不止谷歌,很多AI巨头,尤其是以 OpenAI、Anthropic 和谷歌为首,一直是AI智能体的布道者。桑达尔·皮查伊在这次发布的致辞中,将AI智能体描述为“能够更多地了解你周围的世界、提前思考多个步骤、并在你的监督下代表你采取行动的模型”。
在这次发布前夕的媒体沟通会上,Google DeepMind Gemini产品管理总监Tulsee Doshi指出:“Google DeepMind研究AI智能体能力已经有很长一段时间了,我认为这个特定词在过去几个月已经有了新的含义。”以Project Astra为例,它的核心原则是拥有眼睛、耳朵和声音的智能体,可以识别并理解物理世界,并与人交互,帮人做事。
谈及背后逻辑,Google DeepMind Project Astra项目产品经理徐Bibo Xu在采访中指出,在技术发展方向上,谷歌正在平衡两个关键领域:一方面继续扩大模型规模,提升基础性能;另一方面,加强后期训练优化和推理技术的改进,尤其关注多模态能力的提升,希望让AI能更好地理解和处理各类信息。
Google DeepMind团队透露,明年初将推出Gemini 2.0系列模型的更多版本,大家很快就能见识到Gemini更强大的表现。
Gemini 2.0:为Agent而生
去年年底,Gemini 1.0问世。Gemini 1.0和1.5是谷歌第一个基于多模态的模型,它支持多模态和长上下文,可以理解文本、视频、图像、音频和代码中的信息,并处理更多信息。
一年后的今天,谷歌发布 Gemini 2.0 系列模型中的第一个版本:Gemini 2.0 Flash 体验版。在MMLU-Pro基准测试中,2.0 Flash的速度是1.5 Pro的两倍。
在功能方面,2.0 Flash 除了能够支持图片、视频和音频等多模态输入,它还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。而且,它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。
谷歌特别强调了对开发者的赋能。官网资料里提到,Gemini 2.0 Flash 现在可以通过谷歌的两款生成式AI产品—— Google AI Studio 和 Vertex AI 中的 Gemini API 获取,所有开发者均可使用「多模态输入」和「文本输出」,可使用原生文本转语音和图像的生成功能。该产品将于2025年1月份上市,到时候Gemini 2.0将迎来更多版本型号。
为了帮助开发者构建动态和交互式应用程序,谷歌还发布了最新 Multimodal Live API,它具有实时音频、视频流输入、以及使用多个组合工具的能力。
谷歌强调,在接下来的几个月里,将把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平台。开发人员可以在Gemini Code Assist中注册使用Gemini 2.0 Flash,以便在流行的ide(如Visual Studio Code、IntelliJ、PyCharm等)中增强编码辅助功能。
而对于更广泛的个人用户,全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择,来体验2.0 Flash 体验版,并且该版本将很快在 Gemini 移动应用中推出。2025年初,谷歌还会将 Gemini 2.0 扩展到更多产品中。
比如,Gemini 2.0 的高级推理能力将融入谷歌搜索中的AI概览(AI Overviews),以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。该功能本周已经进行了小范围测试,明年初将在更大范围推出。
Agent!Agent!还是Agent!
这次发布或许最重要的是,谷歌推出了一批基于 Gemini 2.0 架构的原型 AI智能体,展示了在该领域的野心。其中包括:
1、Project Astra大幅升级,用于探索未来通用AI助手能力的研究原型。
Project Astra的首次亮相是在今年5月份的Google I/O 大会上,当时科技行者在现场目睹了那次发布,在演示视频中,Project Astra通过手机摄像头能看见、能识别、能理解物理世界的周围环境,还能解答用户提问并提供即时反馈。当时在现场收获了一阵掌声。
而现在,基于 Gemini 2.0 版本的Project Astra,进行了一系列升级,谷歌对此又发了一支演示视频。
看起来,进化后的Project Astra与人交互更自然了,这次的更新具体而言覆盖了方方面面:
首先,它实现了更流畅的对话。演示视频中可见,Project Astra可以在多种语言之间进行自然对话,比如法语和泰米尔语,能理解不同口音和生僻单词。
其次,它能调用新工具。看起来是通过文本、语音、图像和视频回答问题并执行任务,并在需要时调用现有的谷歌应用,如搜索、地图和摄像头。“它融合了我们这个时代一些最强大的信息检索系统。”Bibo Xu在这次媒体沟通会上说道。
第三,它有了更强的记忆力。演示视频中,Project Astra 能够记住门禁密码,并且过了一段时间被问到时,还是能准确回忆起门禁密码。在整个测试过程中,即使经过多个不同场景的对话,Project Astra仍能准确调取之前存储的信息。
关于Project Astra的记忆能力,Bibo Xu在媒体沟通会上介绍,Project Astra 拥有两种记忆能力,一个是「图形记忆能力」,最多可以记住10分钟内看到的每一个画面像素;另一个是「对话记忆能力」,最多可以存储60段历史对话,并在需要时调用这些内容。
据悉,谷歌正在将Project Astra的功能植入自家产品中,比如Gemini app、智能眼镜等。而且即将开放给一批“受信任的测试人员”,测试 Project Astra 在原型智能眼镜上的表现。
2、除了Project Astra的升级之外,谷歌此次还发布一个新的智能体Project Mariner。
Project Mariner能够理解和推理浏览器页面中的信息(包括像素、文本、代码、图像和表单等),然后通过Chrome 扩展程序使用这些信息,为用户完成复杂任务。
谷歌指出,在 WebVoyager 基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率,达到了最先进的水平。
从安全性的角度考虑,谷歌在博客中强调:“正在积极研究新型风险和应对措施,始终保持有人类的参与和监督。例如,Project Mariner 只能在浏览器上的活动标签页中键入、滚动或单击,而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。”
3、面向开发者的编码智能体Jules。
谷歌这次发布的另一个新智能体,是专门面向开发者的编码智能体Jules,它可以直接集成到 GitHub 工作流程中来协助开发者工作。
对于开发者来说,比写代码更头疼的可能是找bug,而现在,可以将Python和Javascript编码任务交给Jules,Jules可以处理bug修复和其他耗时的任务,它可以有效修改多个文件,甚至拉取请求来直接将修复返回到GitHub,那么开发者就可以专注于其他任务。
4、更多“智能体们”,用于游戏、机器人、研究等更多领域。
除了上述“叫得上名字的”智能体之外,谷歌这次还演示了一些内置在Gemini 2.0的“智能体们”,用于游戏、机器人、研究等更多领域。
“Google DeepMind 一直以来都在利用游戏帮助AI模型更好地遵守规则、进行规划、并运用逻辑思维。”谷歌在官网资料里指出。比如在上周,谷歌推出了Genie 2,一个可以从单个图像创建无限多种可玩 3D 世界的 AI 模型。
而这次,谷歌基于Gemini 2.0 构建了一些智能体,专门用于游戏场景。演示视频中可见,该智能体可以根据屏幕上的实时画面,分析游戏情况,并提供下一步操作建议;此外,当被用户问到游戏知识时,它还能调用搜索,检索到相关知识并给出建议。
为了进一步探索智能体在游戏领域的应用,谷歌正在与Supercell等游戏开发团队合作,通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估智能体们理解游戏规则、应对挑战的能力。
除了探索虚拟世界的智能体能力外,谷歌还将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。不过谷歌方面指出,这项研究仍处于初期阶段。
此外,谷歌在 Gemini Advanced 中还引入了一项名为“深度研究(Deep Research)”的新代理功能,这是一个研究助手,可以深入研究复杂主题并为创建包含相关来源链接的报告。该功能自今日起对 Gemini Advanced 用户开放。
“思维链是我们思考如何构建模型的重要组成部分。”Tulsee Doshi在媒体采访中指出,比如AlphaCode和AlphaProof,这些都是能够展示深度思维和推理时间的真正强大模型,它们能够在代码和数学方面提升性能。
值得一提的是,谷歌这次依然特别强调了安全与责任的重要性,为此制定了“负责任的AI”原则,在数据处理、模型训练等各个环节都实施了严格的安全把关。
谷歌在对外发布资料里强调了秉持“负责任的AI”原则
Gemini 2.0背后的功臣:第六代Trillium
如此密集的AI智能体们,以及承载这些智能体的AI大模型们,给硬件基础设施带来了特殊挑战。因为这些模型需要巨大的计算能力和专门的硬件来有效地处理训练、微调和推理。
十多年前,谷歌开始开发定制的人工智能加速器——张量处理单元(TPU),它集成了软硬件、机器学习框架、以及大模型,以满足人工智能工作负载不断增长的需求,为多模态人工智能铺平道路。
桑达尔·皮查伊在寄语里把Gemini 2.0的进展一部分归功于TPU。他写道:“Gemini 2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入,它基于我们定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持。”谷歌第六代TPU Trillium发布于今年5月份的Google I/O大会上。
而现在,谷歌宣布第六代 TPU Trillium正式面向客户开放。
相比于上一代,第六代Trillium训练成绩提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,每个芯片的峰值计算性能提高了4.7倍,HBM (High Bandwidth Memory)容量翻倍,ICI (Interchip Interconnect)带宽增加一倍。
谷歌Cloud计算与人工智能基础设施副总裁Mark Lohmeyer在官方资料里指出,这些增强功能使Trillium能够在广泛的人工智能工作负载中脱颖而出,包括:扩展AI训练工作量、培训法学硕士包括密集和混合专家(MoE)模型、推理性能和集合调度、Embedding-intensive模型、提供培训和推理性价比等。
谷歌第六代 TPU Trillium
结合这次整场发布可以看出,谷歌正在努力平衡AI的加度和深度思考能力,希望找到一个既能快速响应、又能进行深度推理的平衡点,目标是将这些先进技术以最实用的方式带给用户和产业。这个过程虽然充满挑战,但也充满希望。