深耕线下渠道、优化眼镜的基础体验,百镜大战中走出的差异化路径

Gemini 阵容扩大,生成式 AI 能力更强,搜索重置更新,多模态 AI 助理看点多
Google I/O 开幕演讲回顾:整体来看惊喜不多,基础建设稳扎稳打
谷歌 CEO 桑达尔·皮查伊为刚刚结束的 Google I/O 开幕演讲做了总结:
一个半小时的主题演讲,120 次提及「AI」。不,是 121 次,刚刚我又说了一次,我甚至还想多说几次,让这个数字再扩大一些……
-XEzRZ35urlk-0015.png)
甚至为了给 AI 让路,Google Pixel 8a 在 I/O 大会前就开启预售。而以往的重头戏 Android 部分的解说,直接和谷歌大模型 Gemini 绑定,变成以 AI 为内核的操作系统。
继上次 Sora 截胡 Gemini 1.5 之后,OpenAI 故伎重演,在 Google I/O 开幕前一天甩出了 GPT-4o,免费升级让整个科技互联网狂喜。
> 延伸阅读:OpenAI 热辣滚烫,Google 红毯先生,春节档创纪录
Gemini 不甘示弱,更新了多项大模型和工具,发布了诸多新功能。在生成式 AI 方面,谷歌还展示了与 OpenAI 分庭抗争的文生图、文生视频的新能力。
此外,新的融合了多模态 AI 能力的语音助手 Project Astra 也有很多看点。
Gemini 1.5 Pro 新增 200 万 tokens 参数
去年 12 月,Gemini 首次亮相,并发布了 Gemini 1.0 版本。
今年 2 月,Gemini 1.5 Pro 正式发布,具有 100 万 tokens 参数、长上下文处理能力、多模态交互能力。
会上桑达尔·皮查伊公布了一组数据,目前有超过 150 万开发者使用 Gemini 模型,Gemini 也已进驻至 Android、iOS 系统。
-XEzRZ35urlk-0004.png)
随着使用量的增加,需求也发生着巨大的变化,比如用图片提问,现在已经变得越来越常见。此次 Gemini 家族的诸多更新,即是为了响应用户需求。
首先迎来的是 Gemini 1.5 Pro 的功能改进,在翻译、推理、编码等关键用例上做了优化,能够胜任更复杂的任务处理。

新版本 Gemini 1.5 Pro 除了 100 万 tokens 参数外,还新增了 200 万 tokens 选项,语言种类也扩展至 36 种。
-XEzRZ35urlk-0011.png)
基于新版本 Gemini 1.5 Pro 更新的 Gemini Advanced 能够处理多个大型文档,总计 1500 页,或梳理 100 封电子邮件。
-XEzRZ35urlk-0013.png)
未来 Gemini 1.5 Pro 还将继续扩大适用范围,预计将向全球 200 多个国家和地区提供使用。
轻量级模型 Gemini 1.5 Flash,主打短频快
Gemini 1.5 Flash 是 Google 发布的一款新的轻量级模型,主要用于处理高频、简单任务,具备快速响应能力。

和 Gemini 1.5 Pro 一样,具有 100 万 tokens 参数,以及支持文本、图像、语音、视频等多模态交互能力。
端侧模型 Gemini nano,与 Android 底层系统集成
Gemini nano 是一款端侧轻量级大模型,将集成在 Android 底层系统,作为一项能力向设备提供,首先是自家的 Pixel 手机。
-XEzRZ35urlk-0040.png)
Gemini nano 能支持语音理解、图像识别,以及将消息、邮件和文档,提炼合成简洁、可读的摘要内容。
具体用例方面,Gemini nano 可以读懂手机界面上的信息、提炼 PDF 等文档关键信息,并支持语音问答。
-XEzRZ35urlk-0041.png)
另外,Gemini nano 还能根据陌生电话涉及的索要身份信息、银行账号等敏感词汇,识别诈骗电话。
-XEzRZ35urlk-0042.png)
-XEzRZ35urlk-0043.png)
开源模型 Gamma 2,性能是同尺寸模型 2 倍,计划今年 6 月发布
会上,谷歌还预告了开源模型 Gamma 2 的发布时间,如果一切进展顺利,6 月即会推出。
据悉 Gamma 2 具备 270 亿训练参数,性能表现是同尺寸模型的 2 倍,并可在 GPU 或 Vertex AI 中的单个 TPU 主机上运行。
-XEzRZ35urlk-0048.png)
而当前的 Gamma 则新增了 PaliGemma 视觉语言模型,并针对图像字幕视觉问答和其他图像标签任务进行了优化。
-XEzRZ35urlk-0049.png)
文生图模型 imagen 3,主打高清图像
文生图模型 Imagen 升级至 Imagen 3 版本,主要改进了图像质量。
-XEzRZ35urlk-0021.png)
Imagen 3 模型带来了更具细节特征的图片,如动物的胡须、人的头发,丝毫毕现。
同时,去除了图像中常见的伪影、杂质,使得图片更加逼真。
文生视频模型 Veo,60 秒 1080P 的短视频,很快会有消费者版本
Veo 以 Google 多年生成式视频模型为基础构建,包括 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere,能够理解文本内容,输出高质量、高分辨率的视频。
-XEzRZ35urlk-0023.png)
Veo 可以生成 1 分钟时长 1080P 分辨率的短视频,并能理解文本中的「延时拍摄、航拍」镜头拍摄风格。






谷歌表示,目前正在邀请电影制片人和创作者测试 Veo,以打磨出适用于消费者的版本。
生成式音乐工具 Music AI Sandbox
Music AI Sandbox 基于生成式音乐模型 Lyria,并与 YouTube、音乐家、创作者联合打造。
利用 AI,音乐人可以在音乐中添加新的音乐元素、乐器声,以生成全新的音乐曲目。
-XEzRZ35urlk-0022.png)
AI 重构搜索:全新 Overviews 亮相,视频搜索在路上
以搜索见长的谷歌,这次索性用 AI 将搜索引擎折腾了个遍。
搜索引擎将支持语音、图片、圈,甚至是视频搜索,给出的结果也将是多维度、极丰富的,谷歌称这种新的呈现方式「Overviews 概览」。

如简单问题提问,搜索引擎可以给出带有观点性、内容性的不同内容回复。
对于复杂问题,AI 会将复杂问题分解为小问题,并按照顺序,逐步呈现。
例如,当提出:我想报一个离我家较近、价格适中的瑜伽班?
搜索引擎就会基于需求,从海量的真实商家信息中,抽离出符合需求的课程。不仅如此,「Overviews 概览」界面还会给出地图、商户的评价,甚至是瑜伽练习的要领提示等信息。
-XEzRZ35urlk-0026.png)
再比如,对于球盟会登录入口网页版日常较为苦恼的饮食安排,你也可以在搜索引擎中直接提出:帮我安排为期七天的饮食菜谱,而即刻获得包含图片、文字、做法的搜索内容。

此外,谷歌还预告了「视频搜索」功能。
会上透过一段用户拍摄的唱片机摇臂安装问题发起搜索。AI 通过对视频逐帧分析后,一份包含唱片机厂商、型号,安装方式等内容的「Overviews 概览」即出现在眼前。
Workspace 获 Gemini 1.5 加持,主打一个高效、协同办公
谷歌办公应用 Workspace 的更新,倒是有些看点。
Gmail、文档、幻灯片、表格的侧面板中的 Gemini 将升级至全新的 Gemini 1.5 Pro,通过上下文窗口和更高级的推理,提供服务。
-XEzRZ35urlk-0029.png)
如在 Gmail 中,Gemini 可以对多封邮件,进行关键信息提炼,形成一份待办事项清单。
这当中谷歌列举了两个有趣的例子:
其中之一,丈夫发给妻子希望修缮屋顶的邮件。妻子利用 Gemini 在众多供应商回应邮件中,快速寻找到合适价格、合理工期的供应商。并且 Gemini 还具体问题,生成了自动回复,这着实让妻子大为满意。
-XEzRZ35urlk-0031.png)
而另一个例子,是一个自由摄影工作者,在繁忙的工作中,收到各种出差时的差旅单据时,通过 Gemini 将单据快速生成条目清晰的表格。
另这位摄影工作者欣喜的是,Gemini 还能一键设置命令,Gmail 中所有同类单据都并入至一份表格,而可统一管理。
-XEzRZ35urlk-0032.png)
-XEzRZ35urlk-0033.png)
另外,针对职场常见的拉群工作沟通,谷歌还打造了一个由 AI 驱动的工作助理。
工作助理是一个虚拟同事,你甚至可以给它起名。
在群组内,它可以学习群内聊天内容、项目背景信息,慢慢进化到对项目了如指掌的状态。
-XEzRZ35urlk-0034.png)
演示视频中,工作人员向其发问:咱们的项目能如期上线吗?
工作助理基于所掌握的信息,瞬间列明项目进度、待解决的重要事项,并且将任务发送给所负责的同事。
活脱脱一个项目经理。
Gemini 手机版 App 上新,多模态入口设计,可创作多角色聊天机器人
经过全新设计的 Gemini APP,直接以语音、图片、视频为输入口,并能访问 Gemini 最新的版本。
-XEzRZ35urlk-0038.png)
谷歌表示,Gemini APP 的愿景是成为最有用的个人 AI 助理。
基于此,Gemini APP 还提供支持创建 Gems 个性化聊天机器人,可让用户与不同角色的机器人对话。
会上 Google 就列举了如瑜伽搭子、大厨、编码伙伴等角色形象。
第六代 TPU Trillium 低调发布,性能提升 4.7 倍
作为 Gemini 等大模型背后的硬件支柱,第六代 TPU Trillium 在会上也仅作为配角低调发布。
-XEzRZ35urlk-0051.png)
就性能而言,Trillium 还算够强大。会上谷歌表示,相比 TPU v5e,Trillium 每个芯片峰值计算性能提高了 4.7 倍,能效高出 67%。
其中 Trillium 还配备了第三代 SparseCore,一款处理超大嵌入的专用加速器。同时,Trillium TPU 可以更快速训练下一代基础模型,并以比较短的延迟时间及低成本提供模型服务。
智能助理 Project Astra 和 AR 眼镜
Project Astra 是谷歌最新的实时多模态 AI 助理。
会上,演示者手持 Pixel 手机,演示了 Astra 与各种事务的多模态交互能力。

与 Pixel 手机先后出现的,还有首次亮相的一款新 AR 眼镜。
有关这部分的详细解读,参考今天推送的第二篇。
主笔:达达 / 球盟会登录入口网页版
审校:周森 / 球盟会登录入口网页版
编辑:陈述 / 球盟会登录入口网页版