谷歌发布Gemini 2.0，使用自研的超10万颗第六代TPU 100%地训练与推理

谷歌发布Gemini 2.0，使用自研的超10万颗第六代TPU 100%地训练与推理

2024-12-27 19:25

亮点：发力AI代理、自研TPU替代英伟达方案。

今天，谷歌重磅推出为新代理时代构建的新一代模型：Gemini 2.0，这是谷歌迄今为止功能最强大的模型。

借助多模态性的新进展（如原生图像和音频输出）以及原生工具的使用，它将使我们能够构建新的 AI 代理，让我们更接近通用助手的愿景。谷歌正在将这一新模型融入到 Gemini 以及 Search 产品中去。

从今天开始，谷歌的 Gemini 2.0 Flash 实验模型将向所有的 Gemini 用户开放。谷歌还将推出一项名为 Deep Research 的新功能，它使用高级推理和长上下文功能充当研究助手，探索复杂主题并编写报告。它今天在 Gemini Advanced 中可用。

没有哪款产品比搜索更能体现人工智能带来的改变。谷歌的AI搜索现已覆盖 10 亿人，使他们能够提出全新类型的问题——这很快成为最受欢迎的搜索功能之一。下一步，谷歌将 Gemini 2.0 的高级推理功能引入AI搜索，以解决更复杂的主题和多步骤问题，包括高级数学方程式、多模式查询和编码。本周开始进行有限测试，并将于明年初更广泛地推广。明年，将继续将人工智能概览推广到更多国家和语言。

Gemini 2.0 的进步得益于谷歌十年来对差异化全栈 AI 创新方法的投资。它建立在定制硬件之上，例如第六代 TPU Trillium。TPU 为 Gemini 2.0 的 100% 训练和推理提供支持，如今 Trillium 已普遍向客户开放，因此他们也可以使用它进行构建。

谷歌CEO桑达尔·皮查伊说，“如果说 Gemini 1.0 是关于组织和理解信息的，那么 Gemini 2.0 就是为了让信息更加有用。我迫不及待地想看看下一个时代会带来什么。”

Gemini 2.0 Flash

在 Gemini 1.5 Flash 成功的基础上，Flash 2.0 的速度是 1.5 Pro 的两倍，同时实现了更强大的性能，包括新的多模式输出，并附带本机工具使用。谷歌还推出了多模式实时 API，用于构建具有实时音频和视频流的动态应用程序。

从今天开始，开发人员可以通过Google AI Studio和Vertex AI中的Gemini API在其实验阶段测试和探索 Gemini 2.0 Flash ，并将于明年年初全面上市。

借助 Gemini 2.0 Flash，开发人员可以访问：

1. 性能更佳

Gemini 2.0 Flash 比 1.5 Pro 更强大，同时仍提供开发人员期望 Flash 提供的速度和效率。它还在关键基准上改进了多模式、文本、代码、视频、空间理解和推理性能。改进的空间理解功能可以更准确地在杂乱图像中的小物体上生成边界框，并更好地识别物体和添加字幕。在空间理解视频中了解更多信息或阅读Gemini API 文档。

2. 新的输出模式

开发人员将能够使用 Gemini 2.0 Flash 生成集成响应，这些响应可以包含文本、音频和图像 — 只需调用一次 API 即可完成。这些新的输出模式可供早期测试人员使用，预计明年将更广泛地推出。SynthID隐形水印将在所有图像和音频输出中启用，有助于减少错误信息和错误归因问题。

多语言原生音频输出：Gemini 2.0 Flash 具有原生文本转语音音频输出功能，开发人员不仅可以精细控制模型的发音内容，还可以控制发音方式，同时还有 8 种高品质声音和多种语言和口音可供选择。聆听原生音频输出的实际效果，或阅读开发人员文档了解更多信息。

原生图像输出：Gemini 2.0 Flash 现在可以原生生成图像并支持对话式多轮编辑，因此您可以在之前的输出基础上进行构建和优化。它可以输出交错的文本和图像，这使其在食谱等多模式内容中非常有用。有关更多信息，请参阅原生图像输出视频。

3. 本机工具的使用

Gemini 2.0 已接受使用工具的训练，这是构建代理体验的基础功能。除了通过函数调用自定义第三方函数外，它还可以原生调用 Google 搜索和代码执行等工具。原生使用 Google 搜索作为工具可获得更真实、更全面的答案，并增加发布商的流量。可以并行运行多个搜索，从而通过同时从多个来源查找更多相关事实并将它们结合起来以提高准确性，从而改善信息检索。在原生工具使用视频中了解更多信息，或从笔记本开始构建。

4. 多模式实时 API

开发人员现在可以使用来自摄像头或屏幕的音频和视频流输入来构建实时、多模式应用程序。支持自然对话模式，如中断和语音活动检测。该 API 支持将多个工具集成在一起，以通过单个 API 调用完成复杂的用例。在多模式直播视频中查看更多信息，尝试Web 控制台或入门代码(Python)。

初创公司在 Gemini 2.0 Flash 方面取得了令人瞩目的进展，并设计出了新的体验原型，例如tldraw 的可视化游乐场、Viggle 的虚拟角色创建和音频叙述、Toonsutra 的上下文多语言翻译，以及Rooms 的添加实时音频。

为了快速启动构建，Google AI Studio中发布了三个入门应用体验，以及用于空间理解、视频分析和 Google Maps 探索的开源代码，以便开发者可以开始使用 Gemini 2.0 Flash 进行构建。

Gemini 2.0：面向代理时代的全新 AI 模型

谷歌基于Gemini 2.0，发布了三个代理——包括对 Project Astra 的更新，旨在探索通用人工智能助手的未来功能；新 Project Mariner，它从浏览器开始探索人机交互的未来；以及 Jules，一个可以帮助开发人员的人工智能代码代理，以及其他的游戏代理、具身智能等。

1、Astra 项目：在现实世界中使用多模式理解的代理

使用 Gemini 2.0 构建的最新版本的改进包括：

更好的对话：Project Astra 现在能够使用多种语言和混合语言进行交谈，并且能够更好地理解口音和不常见的单词。

新工具用途：借助 Gemini 2.0，Project Astra 可以使用 Google 搜索、镜头和地图，使其作为您日常生活中的助手更加有用。

更好的记忆：我们改进了 Project Astra 的记忆能力，同时让您掌控一切。它现在拥有长达 10 分钟的会话记忆，可以记住您过去与其进行的更多对话，因此可以更好地为您量身定制。

改善延迟：借助新的流媒体功能和本机音频理解，代理可以以与人类对话相同的延迟理解语言。

谷歌正在努力将这些功能引入 Google 产品，例如Gemini应用、AI 助手，以及眼镜等其他设备。谷歌正开始将可信测试者计划扩展到更多人，其中包括一个即将开始在原型眼镜上测试 Project Astra 的小组。

2、Project Mariner：能帮你完成复杂任务的代理

Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型，旨在从浏览器开始探索人机交互的未来。作为研究原型，它能够理解和推理浏览器屏幕上的信息，包括像素和文本、代码、图像和表单等网络元素，然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。

根据WebVoyager 基准进行评估，该基准测试代理在端到端真实世界网络任务上的性能，Project Mariner作为单一代理设置实现了 83.5% 的最佳工作结果。

虽然还为时过早，但 Mariner 项目表明，在浏览器中导航在技术上已经成为可能，尽管目前它完成任务并不总是准确且缓慢，但随着时间的推移，这种情况将迅速改善。

为了安全、负责地构建这一系统，谷歌正在积极研究新型风险和缓解措施，同时让人类参与其中。例如，Project Mariner 只能在浏览器的活动选项卡中键入、滚动或点击，并且它会在用户执行某些敏感操作（例如购买某物）之前要求用户进行最终确认。

值得信赖的测试人员现在开始使用实验性的 Chrome 扩展程序测试 Project Mariner，同时谷歌也开始与网络生态系统进行对话。

3、Jules：开发商的代理

Jules 是一款实验性的人工智能代码代理，可直接集成到 GitHub 工作流程中。它可以解决问题、制定计划并执行，所有这些都在开发人员的指导和监督下完成。这项工作是谷歌长期目标的一部分，即构建在所有领域（包括编码）中都有用的人工智能代理。

4、游戏和其他领域的代理

Google DeepMind长期以来一直使用游戏来帮助 AI 模型更好地遵循规则、规划和逻辑。

例如，就在上周，谷歌推出了Genie 2，它可以从一张图片中创建无限多样的可玩 3D 世界。基于这一传统，谷歌使用 Gemini 2.0 构建了代理，可以在视频游戏的虚拟世界中导航。它可以仅根据屏幕上的动作推断游戏，并在实时对话中提供下一步操作的建议。

谷歌正在与 Supercell 等领先的游戏开发商合作，探索这些代理的工作方式，测试它们解释各种游戏规则和挑战的能力，从《部落冲突》等策略游戏到《Hay Day》等农场模拟器游戏。

除了充当虚拟游戏伙伴之外，这些代理甚至可以利用 Google 搜索为您提供网络上丰富的游戏知识。

除了探索虚拟世界中的代理能力外，谷歌还通过将 Gemini 2.0 的空间推理能力应用于机器人技术，试验可以在现实世界提供帮助的代理。

第六代 TPU Trillium 正式上市

今年早些时候，谷歌发布了 Trillium，这是第六代 TPU，也是迄今为止性能最高的 TPU。今天，它已正式面向 Google Cloud 客户推出。

谷歌使用 Trillium TPU 来训练新的Gemini 2.0。

Trillium TPU 是 Google Cloud 的 AI Hypercomputer 的关键组件，这是一种突破性的超级计算机架构，采用性能优化的硬件、开放软件、领先的 ML 框架和灵活的消费模型的集成系统。作为 Trillium TPU 普遍可用的一部分，谷歌还对 AI Hypercomputer 的开放软件层进行了关键增强，包括对 XLA 编译器和 JAX、PyTorch 和 TensorFlow 等流行框架的优化，以在 AI 训练、调整和服务方面实现领先的性价比。此外，使用大量主机 DRAM（补充高带宽内存或 HBM）进行主机卸载等功能可提供更高级别的效率。AI Hypercomputer 从前所未有的每个 Jupiter 网络结构部署超过 100,000 个 Trillium 芯片中获得最大价值，具有13 PB/秒的对分带宽，能够将单个分布式训练作业扩展到数十万个加速器。

目前，AI21 Labs 等客户正在使用 Trillium 为其客户更快地提供有意义的 AI 解决方案：

“在 AI21，我们不断努力提高 Mamba 和 Jamba 语言模型的性能和效率。作为自 v4 以来的 TPU 长期用户，我们对 Google Cloud 的 Trillium 的功能印象深刻。规模、速度和成本效益方面的进步非常显著。我们相信 Trillium 对于加速我们下一代复杂语言模型的开发至关重要，使我们能够为客户提供更强大、更易于访问的 AI 解决方案。” ——Barak Lenz，AI21 实验室首席技术官

以下是 Trillium 相对于上一代产品的一些主要改进：

训练效果提高 4 倍以上
推理吞吐量提高 3 倍
能源效率提高67%
每块芯片的峰值计算性能显著提升 4.7 倍
高带宽内存 (HBM) 容量加倍
芯片间互连 (ICI) 带宽加倍
单个 Jupiter 网络结构中有 100K 个 Trillium 芯片
每美元可将训练性能提高 2.5 倍，每美元可将推理性能提高 1.4 倍

这些增强功能使 Trillium 能够在各种 AI 工作负载中表现出色，其中包括：

扩展 AI 训练工作负载

训练 LLM，包括密集模型和混合专家 (MoE) 模型
推理性能和收集调度
嵌入密集型模型
提供训练和推理性价比

训练像 Gemini 2.0 这样的大型模型需要大量的数据和计算。Trillium的近线性扩展能力可以有效地将工作负载分配到通过 256 芯片舱内的高速芯片间互连和谷歌最先进的Jupiter 数据中心网络连接的大量 Trillium 主机上，从而使这些模型的训练速度显著加快。这是通过 TPU 多切片和用于大规模训练的全栈技术实现的，并通过Titanium进一步优化，Titanium 是一个动态数据中心范围的卸载系统，范围从主机适配器到网络结构。

Trillium 通过部署 12 个由 3072 个芯片组成的 pod 实现了 99% 的扩展效率，并通过 24 个 pod（包含 6144 个芯片）对 gpt3-175b 进行预训练实现了 94% 的扩展效率，即使在跨数据中心网络运行以预训练 gpt3-175b 时也是如此。

图 1. 源数据：Google 基准和 MLPerf™ 4.1。nx Trillium-256 对应于一个 ICI 域中带有 256 个芯片的 n 个 Trillium 吊舱

虽然在上图中谷歌使用 4 片 Trillium-256 芯片舱作为基线，但使用 1 片 Trillium-256 芯片舱作为基线，在扩展到 24 个舱时仍可实现超过 90% 的扩展效率。

在训练 Llama-2-70B 模型时，测试表明，Trillium 实现了从 4 片 Trillium-256 芯片组到 36 片 Trillium-256 芯片组的近线性扩展，扩展效率达到 99%。

图 2. 源数据：Google 基准测试使用 MaxText 参考实现在 4k Seq Length 上进行。nx Trillium-256 对应于一个 ICI 域中带有 256 个芯片的 n 个 Trillium 荚。

与前几代产品相比，Trillium TPU 的扩展效率明显更高。下图中，测试表明，与同等规模的 Cloud TPU v5p 集群相比，Trillium 在 12 个 Pod 规模下的扩展效率高达 99%（总峰值浮点运算次数）。

图 3. 源数据：MLPerf™ 4.1 Training Closed 结果，针对 Trillium（预览版）和 v5p 在 GPT3-175b 训练任务上。截至 2024 年 11 月：Trillium 和 Cloud TPU v5p 的弱缩放比较。v5p-4096 和 4xTrillium-256 被视为缩放因子测量的基础。nx Trillium-256 对应于一个 ICI 域中带有 256 个芯片的 n 个 Trillium 吊舱。v5p-n 对应于单个 ICI 域中的 n/2 个 v5p 芯片。

除了训练全球最大的 AI 工作负载所需的绝对性能和规模之外，Trillium 还旨在优化性价比。迄今为止，在训练 Llama2-70b 和 Llama3.1-405b 等密集型 LLM 时，Trillium 的性价比比 Cloud TPU v5e 高出 2.1 倍，比 Cloud TPU v5p 高出 2.5 倍。

Trillium 擅长以经济高效的方式并行处理大型模型。它旨在帮助研究人员和开发人员以比以前低得多的成本提供强大而高效的图像模型。在Trillium 上生成一千张图像的成本比用于离线推理的 Cloud TPU v5e 低 27% ，比用于 SDXL 服务器推理的 Cloud TPU v5e 低 22%。

图 7.源数据：Google 使用 MaxDiffusion 参考实现对离线和在线 SDXL 用例的每秒图像数进行基准测试。