2024年05月15日14:45:30 科技 1558

昨天 OpenAI 针对性地推出 GPT-4o 似乎给到谷歌不少压力。

尽管当地时间是白天，但谷歌的演讲者们似乎都不太有精神，现场反响也不够热烈，不管如何，北京时间 5 月 15 日凌晨 1 点，2024 年度谷歌 I/O 开发者大会拉开帷幕。

虽然没有太惊艳的产品，但胜在“量大管饱”，谷歌推出了一系列以 AI 为核心的产品和服务，覆盖 AI 模型、AI 搜索、AI 语音助手、AI 芯片等多个方面。

Gemini 迭代升级并亮相家族新成员

首先在模型更新上，谷歌重点围绕“长上下文窗口”和“多模态”方面，对 Gemini 现有模型进行了升级，同时发布了新的模型。

（来源：Google）

谷歌 1.0 版本 Gemini 被定义为“原生多模态大模型”，可同时识别文本、图像、音频、视频和代码五种类型信息，还可以理解并生成主流编程语言的高质量代码。今年 2 月，谷歌推出升级版本 Gemini 1.5 Pro ，其稳定处理上下文窗口达到 100 万 tokens。作为对照，OpenAI 的 GPT-4 Turbo 只有 12.8 万 tokens。

之前，Gemini 1.5 Pro 只是作为预览版推出，现在它正式对所有人开放。此外，它支持的上下文窗口也从 100 万 tokens 提升到 200 万 tokens，能够同时处理 2 小时的视频、22 小时的音频、6 万多行代码或 140 多万个字，除了能生成创意文本、代码外，Gemini 1.5 Pro 还能理解和总结用户上传的视频、音频等内容。比如，帮助用户将视频会议内容进行提炼总结等。

图｜Gemini 1.5 Pro 模型性能升级（来源：Google）

谷歌首席执行官 Sundar Pichai 在会上表示，目前已经完全进入 Gemini 时代，将会为创造者、开发者、初创企业创造更多的机会，实现多模态的任意格式输入输出。

除了对 Gemini 1.5 Pro 的升级，谷歌此次还带来了 Gemini 家族的新成员 Gemini 1.5 Flash，这是一个为提高速度和效率而推出的轻量级模型，支持多模态，重点优化了响应时间，兼顾快速和成本效益。

谷歌 DeepMind 首席执行官 Demis Hassabis 表示，之所以要开发 Gemini 1.5 Flash，主要是由于开发人员需要一个比 Gemini 1.5 Pro 更轻便、更便宜的 AI 模型。Gemini 1.5 Flash 重点围绕速度和效率进行了优化，体积更小，速度更快，部署更加灵活，并且支持多模态，该模型擅长摘要、聊天、图像以及从长文档和表格中提取数据等。

据官网资料显示，Gemini 1.5 Flash 通过一个名为“distillation”的过程把 Gemini 1.5 Pro 中最基本的知识和技能转移到更小的模型上而实现的，其性能介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 两个模型之间，拥有与 Gemini 1.5 Pro 相同的多模态功能以及上下文窗口处理能力（100 万个 tokens），能够一次分析 1500 页的文档或超过 3 万行的代码库。

图｜Gemini 1.5 Flash（来源：Google）

需要注意的是，Gemini 1.5 Flash 并非面向消费者，它其实是开发人员利用谷歌设计的技术构建自己的 AI 产品和服务的一种更快速、更简便、更便宜的方式。Sundar Pichai 表示，目前有超过 150 万开发人员使用谷歌 Gemini 模型，他们使用 Gemini 调试代码，获得新见解并构建下一代 AI 应用。

堪称 Sora 劲敌的谷歌视频生成模型 Veo 也在会上亮相，能够根据文本、图像生成超过 60 秒的高质量高清视频，并且用户可以对视频颜色风格、镜头语言以及光照等各项参数进行设定。

Veo 建立在谷歌多年生成视频模型工作的基础之上，结合了最好的架构和技术以提高一致性、质量和输出分辨率。用户可以要求生成真实的景观镜头或时间流逝视频，并可以使用额外的提示进一步编辑视频。与 Sora 一样，Veo 目前只提供给少部分人使用。

谷歌在会上还推出了支持 270 亿参数的开源大模型 Gemma 2，计划将于今年 6 月发布，目前外部开发人员已能够使用预训练的 Gemma 变体 PaliGemma。资料显示，PaliGemma 是 Gemma 家族中的第一款视觉语言模型，针对图像字幕、视觉问答和其他图像标记任务进行了优化。

训练先进的模型离不开算力的加持，Sundar Pichai 指出，过去六年行业对机器学习计算的需求增长了 100 万倍。谷歌会上推出第六代 TPU（张量处理器）芯片 Trillium，这是谷歌迄今为止性能最强、效率最高的 TPU，计算性能比上一代 TPU v5e 提高了 4.7 倍。

AI 语音助手 Astra

在昨天 OpenAI 主要介绍了新模型加持下的 AI 语音助手后，谷歌在会上也介绍了一款语音助手 Astra（高级视觉和说话响应代理，Advanced Seeing and Talking Responsive Agent）。

Demis Hassabis 表示：“我们的目标是开发出可以在日常生活中提供实际帮助的通用人工智能代理。Astra 项目凸显了我们在构建未来 AI 助手方面的努力，特别是在多模态理解和实时对话功能上的成就。”

然而，谷歌并没有在 AI 语音助手上花费太多篇幅，简短介绍后用一个视频做了演示。从视频上看，谷歌的 AI 语音助手并不像 OpenAI 展示的那般惊艳。两者虽然都能通过摄像头与用户直接语音交互，但谷歌 Astra 在延迟和情感变化上应该是逊于 OpenAI 的。

但 Astra 有一个功能令人印象深刻，它可以记住之前看到的事物，比如，当用户举着手机扫过一副眼镜后，一会儿你问它“眼镜在哪里？”，它能准确告诉你。这或许得益于谷歌 AI 模型强大的长文本能力。

此外，Astra 除了会出现在手机上，谷歌也展示了它在眼镜上的应用，还是值得期待的。

关于 Astra 是如何实现的，谷歌提到，在 Gemini 项目的基础上，他们开发了一种原型代理，这种代理能够通过连续编码视频帧，将视频和语音输入整合到一个事件时间线中，并将这些信息进行缓存，以便有效地召回和处理。这使得代理能够更迅速地处理信息，提高响应速度。

此外，再利用语音模型增强了 Astra 的声音处理能力，提供了更多样化的语调选项。这些改进使得 Astra 能更好地理解其所处的上下文，并能在对话中更加迅速地做出反应。

这听起来在技术也是比 OpenAI 略差一些。OpenAI 的方式是一切都由一个统一的神经网络完成，通过端到端的方式同时处理文本、视觉和音频输入和输出。

多样化的谷歌 AI 搜索

谷歌重点讲的反而是 AI 搜索，没等到 OpenAI 的 AI 搜索，谷歌先自我革命发布了一系列 AI 搜索功能。首先是“AI Overviews”，该功能通过 AI 技术搜索相关资料，然后自动整理和概述相关信息，让用户能够迅速掌握核心内容，并附带链接以供深入了解更多细节。

为了能更好地适应和使用，谷歌还即将允许用户按需调整 AI Overviews 的复杂度，包括使用简化语言或提供更详细的解释。这一功能特别适合对特定主题不太熟悉的用户，比如初学者或孩子。

值得一提的是，AI Overviews 这种新型搜索方式附带的链接，相比传统网页列表，获得了更多点击，因此谷歌打算继续推动这一体验，并专注于为发布商和创作者带来有价值的流量。

这样直接总结相关内容，会不会影响广告收入？谷歌表示，广告仍将作为重要的收入来源出现在页面中，这些广告将在专门位置清晰地标识出来，以区分自然搜索结果和赞助搜索结果。这种做法保持了用户体验的透明度，确保用户能清楚地识别内容的来源。

“AI Overviews”功能今天开始在美国全面推广，并计划很快在其他国家和地区推出。预计本周将有数亿美国用户体验到这一服务，而到今年年底，全球访问用户数有望突破 10 亿。

除了“AI Overviews”，谷歌也会进一步推出新的多步骤推理功能。用户无需将一个复杂的问题拆分成多个单独的搜索请求，而是可以直接提出包含各种细节和注意事项的复杂问题。定制的 Gemini 模型会深入分析和理解问题的多个层面，将一个大型问题分解为多个部分，进而为用户提供全面而精确的信息概述，从而简化搜索过程，提高解决问题的效率和准确性。通过这种方式，原本可能需要几分钟甚至几小时才能完成的研究工作，现在只需几秒钟即可得出结果。

同时，谷歌 AI 搜索还能协助用户制定详细计划。这项新增的规划功能使用户能直接在搜索界面中制定各种计划，包括用餐安排和假期规划等。用户能够通过一个简单的搜索查询，如“为一组人创建为期三天的简易餐食计划”，快速获得一个包含多种网上食谱的初始餐食计划。这些结果会按天展示，每一天都包含多个链接到具体烹饪网站的食谱卡片。用户如果对搜索出的餐食计划中的某些选项不满意，可以很容易地请求调整，例如将晚餐更换为素食菜品。随后，搜索功能会根据用户的新要求定制修改餐食计划。

新的谷歌搜索还将利用生成式 AI 技术帮助用户寻找灵感和新想法。当用户进行搜索以获取创意或解决方案时，它能够与用户集思广益，自动整理和生成一个易于浏览的结果页面。这个页面将包含归类明确的结果，每类结果都配有由 AI 生成的独特标题，涵盖广泛的视角和内容类型。

此外，随着视频理解技术的进步，谷歌搜索还允许用户直接通过视频来提出问题，这一功能尤其适合那些难以用文字描述的情况。例如，你发现购买的唱片机无法工作，唱针的金属片有异常漂移，你可能难以找到准确的词汇来描述这个问题。现在只需上传关于唱片机的视频，谷歌搜索将自动解析视频内容，并提供一个包含故障排除步骤和相关资源的 AI 概述。

除了以上内容，谷歌还进行了诸多细节展示。但总的来说，谷歌在大会上并没有展示令人十分振奋的产品，更多看到的是，谷歌正在通过“Gemini”这一核心项目，系统地整合和优化其庞大的资源和技术，全面提升其服务生态系统。

但这样的整合是否能在如今的“AI 大战”中保持优势，还需要观望。而谷歌要想重回在 AI 领域的引领地位，还需要拿出像 OpenAI 那样令人眼前一亮的产品。当然，谷歌的实力依旧不容小觑，要不然 OpenAI 也不会总是想着抢其风头，对谷歌形成一种舆论上的压制。

参考资料：

1.https://io.google/2024/intl/zh/

2.https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

3.https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/

4.https://blog.google/products/gemini/google-gemini-update-may-2024/

5.https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/#gemini-era