深耕线下渠道、优化眼镜的基础体验,百镜大战中走出的差异化路径

几秒钟闪过的谷歌新眼镜,是 AI 与 AR 最好的硬件载体 | Google I/O
谷歌眼镜用上了 Meta 智能眼镜的摄像头,还有 Meta 准备在下一代增加的 AR 显示功能,多模态 AI 助手的能力也更胜一筹
谷歌曾在 2022 年的 I/O 大会上展示过一款智能眼镜,其本质是一款 AR 翻译眼镜,支持语音双向翻译、手语翻译等功能,语音助手作为主交互界面,通过近眼显示提供实时翻译的字幕信息。
而在刚刚开幕的 Google I/O 2024 开发者大会上,又有一款智能眼镜短暂亮相——短到只有几秒,模样被一带而过,却令人过目不忘。
谷歌新眼镜是伴随着新 AI 助理 Project Astra 的发布而亮相的。
演示者问 Astra 提问:你记得在哪儿看到我的眼镜了吗?Astra 告诉她:眼镜在桌子上,红苹果旁边。演示者顺着 Astra 的回答,找到了眼镜。

她放下手机,戴上眼镜,一个开启眼镜的提示音出现。接着下一个转,画面中出现了一个代表 Astra 的小圆点。

演示者继续与 Astra 对话,询问白板上的开发流程图如何优化,Astra 很快给出了答案——一边语音播报,一边将播报文字投射在眼前。

很明显,使用眼镜与使用手机与 AI 对话的方式有一些不同:
眼镜上的摄像头替换了手机上的摄像头,眼镜上的麦克风替换了手机上的麦克风,眼镜上的扬声器替换成了手机上的扬声器,眼镜上的光学显示系统替代了手机的显示屏。
眼镜替换成手机,成为谷歌新 AI 助理 Project Astra 的硬件载体。
这副眼镜看起来很轻盈,样子与日常佩戴的光学眼镜差不多,却多了眼睛、耳朵、嘴巴的功能:
眼镜:摄像头捕捉环境画面,采集影像信息
耳朵:麦克风聆听环境声音,识别语音指令
嘴巴:信息经过(手机)中枢处理后,经(眼镜)扬声器播报反馈
在硬件设计上,它与 Meta 的第二代智能眼镜的设计思路一脉相承。不同之处是,谷歌提前做到了 Meta 没有做到、并准备在下一代产品中集成进来的 AR 显示功能。

谷歌刚刚就 Gemini 的三个模型做了更新:
Gemini 1.5 Pro 在翻译、推理、编码等关键用例上做了优化,能够胜任更复杂的任务处理。
Gemini 1.5 Flash 是 Google 发布的一款新的轻量级模型,主要用于处理高频、简单任务,具备快速响应的能力。
Gemini nano 是一款端侧轻量级大模型,将集成在 Android 底层系统,作为一项能力向设备提供。能支持语音理解、图像识别,以及将消息、邮件和文档,提炼合成简洁、可读的摘要内容。
具体用例方面,Gemini nano 可以读懂手机界面上的信息、提炼 PDF 等文档关键信息,并支持语音问答。还能根据陌生电话涉及的索要身份信息、银行账号等敏感词汇,识别诈骗电话。
从另一个层面,谷歌新眼镜又是 Project Astra 的载体。
Project Astra 是一款实时多模态 AI 助理,通过手机摄像头和麦克风感知物理世界,通过语音和文本与人类交流对话。

演示者用 Pixel 手机摄像头对准桌面,询问桌面上什么东西能发出声音时,Astra 准确的回答:是扬声器。
演示者继续问,这个显示器上面这部分是什么?Astra 准确地回答:是高音单元。

Astra 还可以记得东西放在哪里,可以给金毛狗和宠物熊的乐队组合起名,可以查看电脑屏幕上的代码,可以环顾窗外告诉你这是哪里。




湾里小结:
Project Astra 将接替 Google Assistant 成为新的融合多模态 AI 能力的新 AI 助手,它代表着谷歌人工智能的未来。
作为大模型交互界面的 AI 手机和 AI 眼镜,将成为最重要的、可以随身携带的 AI 硬件载体。
只有麦克风和扬声器的音频 AI 眼镜(李未可、米家等),有麦克风也有摄像头的音视频 AI 眼镜(Ray-Ban Meta),加上 AR 显示并拥有大模型接入能力的 AI 眼镜,智能眼镜的新进化之路已经清晰。
主笔:周森 / 球盟会登录入口网页版
编辑:陈述 / 球盟会登录入口网页版