今天上午访问chatgpt想看看有没有什么新特性,结果服务似乎挂掉了,小道消息说是停电能源问题,瞎说的咱也不知道~
然后今天谷歌放出了大招,官宣了Gemini 2.0,现在也可以在Gemini官网上体验了。
Information is at the core of human progress. It’s why we’ve focused for more than 26 years on our mission to organize the world’s information and make it accessible and useful. And it’s why we continue to push the frontiers of AI to organize that information across every input and make it accessible via any output, so that it can be truly useful for you.
(信息是推动人类进步的核心。这正是为何我们26年来一直致力于我们的使命:整理全球信息,使其变得易于获取和使用。这也是我们不断推动人工智能边界的原因,目的是让这些信息能够跨越各种输入方式得到整理,并通过任何输出方式变得可访问,以便真正为您所用。)
去年的12月,谷歌推出了Gemini,作为第一个原生多模态模型,Gemini 1.0和1.5在多模态和长上下文方面取得了重大进展,以理解文本、视频、图像、音频和代码中的信息,并处理更多的信息。现在,数百万开发者正在使用Gemini进行开发。包括拥有20亿用户的7个产品——并创造新的产品。
Gemini 2.0 Flash实验模型,整合了Gemini和搜索,目前已经开放给了所有Gemini用户。Gemini 2.0 Flash是该系列的第一个模型,它是一个低延迟、高性能的工作模型,能够大规模地处理信息。它不仅继承了1.5 Flash的成功,还在关键基准测试中以两倍的速度超越了1.5 Pro。2.0 Flash支持多模态输入和输出,包括原生生成的图像与文本混合以及可控制的多语言文本到语音(TTS)音频。此外,它还能原生调用工具,如Google搜索、代码执行以及第三方用户定义的函数。还推出了一个Deep Research的新功能,它使用高级推理和长上下文能力作为研究助理(但是很遗憾,只有Gemini Advanced才可以)。
性能提升:Gemini 2.0 在关键基准测试中相较于前代产品 Gemini 1.5 Pro 实现了性能的大幅提升,速度甚至达到了后者的两倍。
多模态输入与输出:支持图像、视频和音频等多模态输入与输出,例如与文本混合的原生图像生成和可控的多语言文本转语音(TTS)音频。
原生工具使用:Gemini 2.0 可以直接调用 Google 搜索、执行代码以及第三方用户定义的函数等工具。
Gemini 2.0 Flash:作为 Gemini 2.0 系列的第一个模型,Gemini 2.0 Flash 特别为开发人员准备了一个免费使用的实验版模型,集成了文本转语音和图像生成两项前沿技术。
安全性与责任:Google DeepMind 在开发 Gemini 2.0 时采取了负责任的态度,通过与责任与安全委员会(RSC)合作,识别和理解潜在风险,并通过 AI 辅助的红队方法自动生成评估和训练数据以减轻风险。
研究原型:谷歌还推出了三个智能体研究原型,包括 Project Astra、Project Mariner 和 Jules,这些原型展示了 AI 从被动信息处理工具向主动思考和行动的智能助手转变的潜力。
开发者支持:Gemini 2.0 Flash 通过 Google AI Studio 和 Vertex AI 中的 Gemini API 作为实验模型提供给开发人员,所有开发人员都可以使用多模态输入和文本输出。
多模态实时 API:谷歌还发布了一个新的 Multimodal Live API,该 API 具有实时音频、视频流输入以及使用多个组合工具的能力。
No product has been transformed more by AI than Search.
没有哪个产品受到AI的变革比搜索更大。