作者 | ZeR0 程茜
编辑 | 漠影
OpenAI的12天“圣诞大礼包”还没熄火,谷歌突然“插队”放出年末大招!
谷歌CEO桑达尔·皮查伊(Sundar Pichai)说:“如果说Gemini 1.0是关于组织和理解信息,那么Gemini 2.0是关于使其更加有用。”这也是其专注于AI Agent、多模态输出的原因所在。
Gemini和Gemini Advanced用户可在桌面端的模型下拉菜单中选择聊天优化版Gemini 2.0来试用。开发人员可通过Google AI Studio和Vertex AI在Gemini API中开始使用此模型进行构建。
本周,谷歌开始在搜索的AI概览中测试Gemini 2.0。1月份,Gemini 2.0 Flash将全面上市,同时将推出更多模型尺寸。明年年初,谷歌会将Gemini 2.0扩展到更多谷歌产品中。
该工具当前仅向Gemini Advanced订阅者提供英文版,并将于明年年初在移动App中提供。
一、Gemini 2.0首款模型发布!多模态输出、原生调用工具、四大Agent
谷歌的官方博客显示,Gemini 2.0 Flash在关键基准测试中的速度是1.5 Pro的两倍。
在AI Agent方面,谷歌宣布了对实验性功能的更新,包括通用AI Agent Project Astra、多步骤任务AI Agent Project Mariner、AI编程Agent Jules、游戏Agent。
1、通用AI Agent Project Astra:记住10分钟视频,更强agent能力
还记得谷歌今年5月展示的通用AI助手研究原型Project Astra吗?
这是一个全视、全听和全记忆的实验性AI助手,展示了通用AI助手的未来功能。你通过安卓App或原型眼镜来记录看到的世界,AI助手可以实时处理文本、图像、视频、音频,分析它所看到的内容并回答广泛的问题,还精通多国语言。
*后文有更详细的功能演示。
2、多步骤任务AI Agent Project Mariner:最佳工作结果83.5%,为保证安全目前需人类介入
Project Mariner是谷歌在Gemini 2.0模型基础上发布的一个实验性功能,其可以完成多步骤的复杂任务。
作为研究原型,Project Mariner能够理解和推理浏览器屏幕上的信息,包括像素和文本、编程、图像和表单等网络元素,然后通过实验性的谷歌扩展程序使用这些信息完成任务。
谷歌官方博客显示,根据WebVoyager基准进行评估,该基准测试Agent在端到端真实世界网络任务上的性能,Project Mariner作为单一Agent设置实现了83.5%的最佳工作结果。
目前,该代理在完成任务时需要人类介入,如Project Mariner只能在浏览器的活动选项卡中键入、滚动或点击,并且它会在用户执行某些购买等敏感操作之前要求用户进行最终确认。
3、AI编程Agent Jules:直接集成GitHub,长期目标是构建通用Agent
谷歌还在探索Agent Jules的更新。Jules是一种直接集成到GitHub工作流程中的实验性AI驱动的编程Agent。
未来,谷歌还在试验可以通过将Gemini 2.0的空间推理功能应用于机器人技术来在物理世界中提供帮助的Agent。
三、通用AI助手原型升级!能存储10分钟视频,开启Agent时代
谷歌发布了由Gemini 2.0提供支持的Project Astra更新版本的新演示视频。
Project Astra产品经理Bibo Xu说:“它正在融合我们这个时代一些最强大的信息检索系统。”
四、基于AI Agent,探索保护用户敏感信息、遵循用户指令策略
在安全方面,谷歌在对多个实验原型进行研究的基础上,正通过迭代实施安全培训、与测试人员和外部专家合作,进行广泛的风险评估以及安全和保证评估。
- 谷歌与责任与安全委员会 (RSC) 合作以识别和了解潜在风险。
- Gemini 2.0的推理功能使其AI辅助红队方法取得重大进步,包括从简单地检测风险到自动生成评估和训练数据以减轻风险的能力。
- 由于Gemini 2.0的多模态功能增加了潜在输出的复杂性,其将继续在图像和音频输入和输出方面评估和训练模型,以帮助提高安全性。
- 通过Project Astra,谷歌正在探索针对用户无意中与代理共享敏感信息的潜在缓解措施,并且其已经内置了隐私控制功能,使用户可以轻松删除会话。他们还在继续研究以确保AI代理充当可靠的信息来源,并且不会代表您采取意外操作。
- 通过Project Mariner,谷歌正在努力确保模型学会优先考虑用户指令,而不是第三方的提示注入尝试,以便它可以识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过电子邮件、文档或网站中隐藏的恶意指令等方式受到欺诈和网络钓鱼攻击。
五、Gemini 2.0背后的硬件功臣:谷歌最强AI芯片Trillium TPU普遍可用
全新Gemini 2.0由谷歌今年发布的Trillium TPU训练而成。Trillium是谷歌第六代TPU,也是迄今性能最高的TPU。
其相比上一代芯片的优化包括:超过4倍的训练性能,高达3倍的推理吞吐量,能效提高67%,每颗芯片峰值计算性能提高4.7倍,HBM容量翻倍,单个Jupiter网络有10万颗TPU,高至2.5倍的每美元训练性能、1.4倍的每美元推理性能。
此外,使用大量主机DRAM(补充HBM)进行主机卸载等功能,提供了更高的效率。
每个Jupiter网络结构超过100,000颗Trillium芯片,具有13Pbps的对分带宽,能够将单个分布式训练任务扩展到数十万个加速器。
以色列AI大模型独角兽AI21 Labs已使用Trillium来加速开发下一代复杂语言模型。
1、扩展AI训练工作负载
3、优化推理性能和收集调度
Trillium也为图像扩散模型和密集大语言模型提供了最佳的TPU推理性能。其测试表明,与Cloud TPU v5e相比,Stable Diffusion XL的相对推理吞吐量(每秒图像)提高了3倍以上,Llama2-70B的相对推理吞吐量(每秒token)提高了近2倍。
它提供了一种管理运行单主机或多主机推理工作负载的多个TPU片的方法,包括通过谷歌Kubernetes Engine(GKE)。将这些片分组到一个集合中,可以很容易地调整副本的数量以满足需求。
4、提高嵌入密集型模型性能
Trillium还旨在优化每美元的性能。迄今为止,在训练密集大语言模型(如Llama2-70b和Llama3.1-405b)中,Trillium的每美元性能比Cloud TPU v5e提高了2.1倍,比Cloud TPU v5p提高了2.5倍。
通用人工智能(AGI)热战在年末愈演愈烈。从亚马逊、OpenAI、Meta到谷歌,一系列重磅发布将大模型的竞争格局推向了新的高潮。
其中谷歌是少有的同时在大模型、云端基础设施、端侧智能方面同时占据优势的头部大模型企业。
在如火如荼的大模型竞赛中,执掌安卓操作系统的谷歌对端侧智能理解距离最近、理解最深。通过今日的一系列发布,谷歌进一步强化了Agent(代理)在智能手机、智能眼镜等端侧设备上的诱人前景。在更强大模型加持下,Agent将能够更广泛地为人类代劳,帮人类了解周围世界,提前进行多步骤思考,并在人类的监督下采取行动。