Uploads%2farticles%2f16393%2fgoogle keynote google i o 24 xezrz35urlk 0001

2024-05-15

Gemini 阵容扩大，生成式 AI 能力更强，搜索重置更新，多模态 AI 助理看点多

Google I/O 开幕演讲回顾：整体来看惊喜不多，基础建设稳扎稳打

谷歌 CEO 桑达尔·皮查伊为刚刚结束的 Google I/O 开幕演讲做了总结：

一个半小时的主题演讲，120 次提及「AI」。不，是 121 次，刚刚我又说了一次，我甚至还想多说几次，让这个数字再扩大一些……

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0015

甚至为了给 AI 让路，Google Pixel 8a 在 I/O 大会前就开启预售。而以往的重头戏 Android 部分的解说，直接和谷歌大模型 Gemini 绑定，变成以 AI 为内核的操作系统。

继上次 Sora 截胡 Gemini 1.5 之后，OpenAI 故伎重演，在 Google I/O 开幕前一天甩出了 GPT-4o，免费升级让整个科技互联网狂喜。

> 延伸阅读：OpenAI 热辣滚烫，Google 红毯先生，春节档创纪录

Gemini 不甘示弱，更新了多项大模型和工具，发布了诸多新功能。在生成式 AI 方面，谷歌还展示了与 OpenAI 分庭抗争的文生图、文生视频的新能力。

此外，新的融合了多模态 AI 能力的语音助手 Project Astra 也有很多看点。

Gemini 1.5 Pro 新增 200 万 tokens 参数

去年 12 月，Gemini 首次亮相，并发布了 Gemini 1.0 版本。

今年 2 月，Gemini 1.5 Pro 正式发布，具有 100 万 tokens 参数、长上下文处理能力、多模态交互能力。

会上桑达尔·皮查伊公布了一组数据，目前有超过 150 万开发者使用 Gemini 模型，Gemini 也已进驻至 Android、iOS 系统。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0004

随着使用量的增加，需求也发生着巨大的变化，比如用图片提问，现在已经变得越来越常见。此次 Gemini 家族的诸多更新，即是为了响应用户需求。

首先迎来的是 Gemini 1.5 Pro 的功能改进，在翻译、推理、编码等关键用例上做了优化，能够胜任更复杂的任务处理。

Google_%E2%80%93_Welcome_to_the_Gemini_era-_fuimO6ErKI-0001

新版本 Gemini 1.5 Pro 除了 100 万 tokens 参数外，还新增了 200 万 tokens 选项，语言种类也扩展至 36 种。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0011

基于新版本 Gemini 1.5 Pro 更新的 Gemini Advanced 能够处理多个大型文档，总计 1500 页，或梳理 100 封电子邮件。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0013

未来 Gemini 1.5 Pro 还将继续扩大适用范围，预计将向全球 200 多个国家和地区提供使用。

轻量级模型 Gemini 1.5 Flash，主打短频快

Gemini 1.5 Flash 是 Google 发布的一款新的轻量级模型，主要用于处理高频、简单任务，具备快速响应能力。

Flash_Utility

和 Gemini 1.5 Pro 一样，具有 100 万 tokens 参数，以及支持文本、图像、语音、视频等多模态交互能力。

端侧模型 Gemini nano，与 Android 底层系统集成

Gemini nano 是一款端侧轻量级大模型，将集成在 Android 底层系统，作为一项能力向设备提供，首先是自家的 Pixel 手机。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0040

Gemini nano 能支持语音理解、图像识别，以及将消息、邮件和文档，提炼合成简洁、可读的摘要内容。

具体用例方面，Gemini nano 可以读懂手机界面上的信息、提炼 PDF 等文档关键信息，并支持语音问答。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0041

另外，Gemini nano 还能根据陌生电话涉及的索要身份信息、银行账号等敏感词汇，识别诈骗电话。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0042

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0043

开源模型 Gamma 2，性能是同尺寸模型 2 倍，计划今年 6 月发布

会上，谷歌还预告了开源模型 Gamma 2 的发布时间，如果一切进展顺利，6 月即会推出。

据悉 Gamma 2 具备 270 亿训练参数，性能表现是同尺寸模型的 2 倍，并可在 GPU 或 Vertex AI 中的单个 TPU 主机上运行。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0048

而当前的 Gamma 则新增了 PaliGemma 视觉语言模型，并针对图像字幕视觉问答和其他图像标签任务进行了优化。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0049

文生图模型 imagen 3，主打高清图像

文生图模型 Imagen 升级至 Imagen 3 版本，主要改进了图像质量。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0021

Imagen 3 模型带来了更具细节特征的图片，如动物的胡须、人的头发，丝毫毕现。

同时，去除了图像中常见的伪影、杂质，使得图片更加逼真。

文生视频模型 Veo，60 秒 1080P 的短视频，很快会有消费者版本

Veo 以 Google 多年生成式视频模型为基础构建，包括 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere，能够理解文本内容，输出高质量、高分辨率的视频。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0023

Veo 可以生成 1 分钟时长 1080P 分辨率的短视频，并能理解文本中的「延时拍摄、航拍」镜头拍摄风格。

1-Filmmaking with Donald Glover and his creative studio, Gilga ｜ Veo-dKAVFLB75xs

2-Filmmaking with Donald Glover and his creative studio, Gilga ｜ Veo-dKAVFLB75xs

Filmmaking with Donald Glover and his creative studio, Gilga ｜ Veo-dKAVFLB75xs

Filmmaking with Donald Glover and his creative studio, Gilga ｜ Veo-dKAVFLB75xs

Filmmaking with Donald Glover and his creative studio, Gilga ｜ Veo-dKAVFLB75xs

3-Filmmaking with Donald Glover and his creative studio, Gilga ｜ Veo-dKAVFLB75xs

谷歌表示，目前正在邀请电影制片人和创作者测试 Veo，以打磨出适用于消费者的版本。

生成式音乐工具 Music AI Sandbox

Music AI Sandbox 基于生成式音乐模型 Lyria，并与 YouTube、音乐家、创作者联合打造。

利用 AI，音乐人可以在音乐中添加新的音乐元素、乐器声，以生成全新的音乐曲目。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0022

AI 重构搜索：全新 Overviews 亮相，视频搜索在路上

以搜索见长的谷歌，这次索性用 AI 将搜索引擎折腾了个遍。

搜索引擎将支持语音、图片、圈��，甚至是视频搜索，给出的结果也将是多维度、极丰富的，谷歌称这种新的呈现方式「Overviews 概览」。

overviews

如简单问题提问，搜索引擎可以给出带有观点性、内容性的不同内容回复。

对于复杂问题，AI 会将复杂问题分解为小问题，并按照顺序，逐步呈现。

例如，当提出：我想报一个离我家较近、价格适中的瑜伽班？

搜索引擎就会基于需求，从海量的真实商家信息中，抽离出符合需求的课程。不仅如此，「Overviews 概览」界面还会给出地图、商户的评价，甚至是瑜伽练习的要领提示等信息。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0026

再比如，对于球盟会登录入口网页版日常较为苦恼的饮食安排，你也可以在搜索引擎中直接提出：帮我安排为期七天的饮食菜谱，而即刻获得包含图片、文字、做法的搜索内容。

Search_in_the_Gemini_era_%EF%BD%9C_Google_I%E2%A7%B8O_2024-s4InWsd-J6g

此外，谷歌还预告了「视频搜索」功能。

会上透过一段用户拍摄的唱片机摇臂安装问题发起搜索。AI 通过对视频逐帧分析后，一份包含唱片机厂商、型号，安装方式等内容的「Overviews 概览」即出现在眼前。

Workspace 获 Gemini 1.5 加持，主打一个高效、协同办公

谷歌办公应用 Workspace 的更新，倒是有些看点。

Gmail、文档、幻灯片、表格的侧面板中的 Gemini 将升级至全新的 Gemini 1.5 Pro，通过上下文窗口和更高级的推理，提供服务。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0029

如在 Gmail 中，Gemini 可以对多封邮件，进行关键信息提炼，形成一份待办事项清单。

这当中谷歌列举了两个有趣的例子：

其中之一，丈夫发给妻子希望修缮屋顶的邮件。妻子利用 Gemini 在众多供应商回应邮件中，快速寻找到合适价格、合理工期的供应商。并且 Gemini 还具体问题，生成了自动回复，这着实让妻子大为满意。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0031

而另一个例子，是一个自由摄影工作者，在繁忙的工作中，收到各种出差时的差旅单据时，通过 Gemini 将单据快速生成条目清晰的表格。

另这位摄影工作者欣喜的是，Gemini 还能一键设置命令，Gmail 中所有同类单据都并入至一份表格，而可统一管理。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0032

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0033

另外，针对职场常见的拉群工作沟通，谷歌还打造了一个由 AI 驱动的工作助理。

工作助理是一个虚拟同事，你甚至可以给它起名。

在群组内，它可以学习群内聊天内容、项目背景信息，慢慢进化到对项目了如指掌的状态。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0034

演示视频中，工作人员向其发问：咱们的项目能如期上线吗？

工作助理基于所掌握的信息，瞬间列明项目进度、待解决的重要事项，并且将任务发送给所负责的同事。

活脱脱一个项目经理�。�

Gemini 手机版 App 上新，多模态入口设计，可创作多角色聊天机器人

经过全新设计的 Gemini APP，直接以语音、图片、视频为输入口，并能访问 Gemini 最新的版本。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0038

谷歌表示，Gemini APP 的愿景是成为最有用的个人 AI 助理。

基于此，Gemini APP 还提供支持创建 Gems 个性化聊天机器人，可让用户与不同角色的机器人对话。

会上 Google 就列举了如瑜伽搭子、大厨、编码伙伴等角色形象。

第六代 TPU Trillium 低调发布，性能提升 4.7 倍

作为 Gemini 等大模型背后的硬件支柱，第六代 TPU Trillium 在会上也仅作为配角低调发布。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0051

就性能而言，Trillium 还算够强大。会上谷歌表示，相比 TPU v5e，Trillium 每个芯片峰值计算性能提高了 4.7 倍，能效高出 67%。

其中 Trillium 还配备了第三代 SparseCore，一款处理超大嵌入的专用加速器。同时，Trillium TPU 可以更快速训练下一代基础模型，并以比较短的延迟时间及低成本提供模型服务。

智能助理 Project Astra 和 AR 眼镜

Project Astra 是谷歌最新的实时多模态 AI 助理。

会上，演示者手持 Pixel 手机，演示了 Astra 与各种事务的多模态交互能力。

Project_Astra：_Our_vision_for_the_future_of_AI_assistants-nXVvvRhiGjI

与 Pixel 手机先后出现的，还有首次亮相的一款新 AR 眼镜。

有关这部分的详细解读，参考今天推送的第二篇。

主笔：达达 / 球盟会登录入口网页版

审校：周森 / 球盟会登录入口网页版

编辑：陈述 / 球盟会登录入口网页版

AI

AR

球盟会登录入口网页版（微信公众号 ID：shenzhenware）是最早也是最活跃的硬件创新社区和媒体，关注「软件+硬件」带来的场景和交互创新，以及与平台和应用相连的产业链升级。

版权声明：本文系球盟会登录入口网页版原创，转载或摘录请先获得授权。
球盟会登录入口网页版微信公众号：shenzhenware。球盟会登录入口网页版同时在头条号、企鹅号、知乎等主流媒体站开设专栏板块，欢迎关注。转载、约稿、投稿、团队报道请在公众号对话框回复关键字并留下联系方式。

上一篇：2024 Q1 TWS 耳机出货 6500 万台，小米升至第二

下一篇：深耕线下渠道、优化眼镜的基础体验，百镜大战中走出的差异化路径

>>

Back to top btn

sitemap、网站地图