AI搜索、AI助手、AI芯片、AI模型,谷歌I/O大会带来Gemini 全家桶

2024年05月15日14:45:30 科技 1558

昨天 OpenAI 针对性地推出 GPT-4o 似乎给到谷歌不少压力。


尽管当地时间是白天,但谷歌的演讲者们似乎都不太有精神,现场反响也不够热烈,不管如何,北京时间 5 月 15 日凌晨 1 点,2024 年度谷歌 I/O 开发者大会拉开帷幕。


虽然没有太惊艳的产品,但胜在“量大管饱”,谷歌推出了一系列以 AI 为核心的产品和服务,覆盖 AI 模型、AI 搜索、AI 语音助手、AI 芯片等多个方面。


Gemini 迭代升级并亮相家族新成员


首先在模型更新上,谷歌重点围绕“长上下文窗口”和“多模态”方面,对 Gemini 现有模型进行了升级,同时发布了新的模型。


AI搜索、AI助手、AI芯片、AI模型,谷歌I/O大会带来Gemini 全家桶 - 天天要闻

(来源:Google)


谷歌 1.0 版本 Gemini 被定义为“原生多模态大模型”,可同时识别文本、图像、音频、视频和代码五种类型信息,还可以理解并生成主流编程语言的高质量代码。今年 2 月,谷歌推出升级版本 Gemini 1.5 Pro ,其稳定处理上下文窗口达到 100 万 tokens。作为对照,OpenAI 的 GPT-4 Turbo 只有 12.8 万 tokens。


之前,Gemini 1.5 Pro 只是作为预览版推出,现在它正式对所有人开放。此外,它支持的上下文窗口也从 100 万 tokens 提升到 200 万 tokens,能够同时处理 2 小时的视频、22 小时的音频、6 万多行代码或 140 多万个字,除了能生成创意文本、代码外,Gemini 1.5 Pro 还能理解和总结用户上传的视频、音频等内容。比如,帮助用户将视频会议内容进行提炼总结等。


AI搜索、AI助手、AI芯片、AI模型,谷歌I/O大会带来Gemini 全家桶 - 天天要闻

图|Gemini 1.5 Pro 模型性能升级(来源:Google)


谷歌首席执行官 Sundar Pichai 在会上表示,目前已经完全进入 Gemini 时代,将会为创造者、开发者、初创企业创造更多的机会,实现多模态的任意格式输入输出。


除了对 Gemini 1.5 Pro 的升级,谷歌此次还带来了 Gemini 家族的新成员 Gemini 1.5 Flash,这是一个为提高速度和效率而推出的轻量级模型,支持多模态,重点优化了响应时间,兼顾快速和成本效益。


谷歌 DeepMind 首席执行官 Demis Hassabis 表示,之所以要开发 Gemini 1.5 Flash,主要是由于开发人员需要一个比 Gemini 1.5 Pro 更轻便、更便宜的 AI 模型。Gemini 1.5 Flash 重点围绕速度和效率进行了优化,体积更小,速度更快,部署更加灵活,并且支持多模态,该模型擅长摘要、聊天、图像以及从长文档和表格中提取数据等。


据官网资料显示,Gemini 1.5 Flash 通过一个名为“distillation”的过程把 Gemini 1.5 Pro 中最基本的知识和技能转移到更小的模型上而实现的,其性能介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 两个模型之间,拥有与 Gemini 1.5 Pro 相同的多模态功能以及上下文窗口处理能力(100 万个 tokens),能够一次分析 1500 页的文档或超过 3 万行的代码库。


AI搜索、AI助手、AI芯片、AI模型,谷歌I/O大会带来Gemini 全家桶 - 天天要闻

图|Gemini 1.5 Flash(来源:Google)


需要注意的是,Gemini 1.5 Flash 并非面向消费者,它其实是开发人员利用谷歌设计的技术构建自己的 AI 产品和服务的一种更快速、更简便、更便宜的方式。Sundar Pichai 表示,目前有超过 150 万开发人员使用谷歌 Gemini 模型,他们使用 Gemini 调试代码,获得新见解并构建下一代 AI 应用。


堪称 Sora 劲敌的谷歌视频生成模型 Veo 也在会上亮相,能够根据文本、图像生成超过 60 秒的高质量高清视频,并且用户可以对视频颜色风格、镜头语言以及光照等各项参数进行设定。


Veo 建立在谷歌多年生成视频模型工作的基础之上,结合了最好的架构和技术以提高一致性、质量和输出分辨率。用户可以要求生成真实的景观镜头或时间流逝视频,并可以使用额外的提示进一步编辑视频。与 Sora 一样,Veo 目前只提供给少部分人使用。


谷歌在会上还推出了支持 270 亿参数的开源大模型 Gemma 2,计划将于今年 6 月发布,目前外部开发人员已能够使用预训练的 Gemma 变体 PaliGemma。资料显示,PaliGemma 是 Gemma 家族中的第一款视觉语言模型,针对图像字幕、视觉问答和其他图像标记任务进行了优化。


训练先进的模型离不开算力的加持,Sundar Pichai 指出,过去六年行业对机器学习计算的需求增长了 100 万倍。谷歌会上推出第六代 TPU(张量处理器)芯片 Trillium,这是谷歌迄今为止性能最强、效率最高的 TPU,计算性能比上一代 TPU v5e 提高了 4.7 倍


AI 语音助手 Astra


在昨天 OpenAI 主要介绍了新模型加持下的 AI 语音助手后,谷歌在会上也介绍了一款语音助手 Astra(高级视觉和说话响应代理,Advanced Seeing and Talking Responsive Agent)。


Demis Hassabis 表示:“我们的目标是开发出可以在日常生活中提供实际帮助的通用人工智能代理。Astra 项目凸显了我们在构建未来 AI 助手方面的努力,特别是在多模态理解和实时对话功能上的成就。”


然而,谷歌并没有在 AI 语音助手上花费太多篇幅,简短介绍后用一个视频做了演示。从视频上看,谷歌的 AI 语音助手并不像 OpenAI 展示的那般惊艳。两者虽然都能通过摄像头与用户直接语音交互,但谷歌 Astra 在延迟和情感变化上应该是逊于 OpenAI 的。


但 Astra 有一个功能令人印象深刻,它可以记住之前看到的事物,比如,当用户举着手机扫过一副眼镜后 ,一会儿你问它“眼镜在哪里?”,它能准确告诉你。这或许得益于谷歌 AI 模型强大的长文本能力。


此外,Astra 除了会出现在手机上,谷歌也展示了它在眼镜上的应用,还是值得期待的。


关于 Astra 是如何实现的,谷歌提到,在 Gemini 项目的基础上,他们开发了一种原型代理,这种代理能够通过连续编码视频帧,将视频和语音输入整合到一个事件时间线中,并将这些信息进行缓存,以便有效地召回和处理。这使得代理能够更迅速地处理信息,提高响应速度。


此外,再利用语音模型增强了 Astra 的声音处理能力,提供了更多样化的语调选项。这些改进使得 Astra 能更好地理解其所处的上下文,并能在对话中更加迅速地做出反应。


这听起来在技术也是比 OpenAI 略差一些。OpenAI 的方式是一切都由一个统一的神经网络完成,通过端到端的方式同时处理文本、视觉和音频输入和输出。


多样化的谷歌 AI 搜索


谷歌重点讲的反而是 AI 搜索,没等到 OpenAI 的 AI 搜索,谷歌先自我革命发布了一系列 AI 搜索功能。首先是“AI Overviews”,该功能通过 AI 技术搜索相关资料,然后自动整理和概述相关信息,让用户能够迅速掌握核心内容,并附带链接以供深入了解更多细节。


为了能更好地适应和使用,谷歌还即将允许用户按需调整 AI Overviews 的复杂度,包括使用简化语言或提供更详细的解释。这一功能特别适合对特定主题不太熟悉的用户,比如初学者或孩子。


值得一提的是,AI Overviews 这种新型搜索方式附带的链接,相比传统网页列表,获得了更多点击,因此谷歌打算继续推动这一体验,并专注于为发布商和创作者带来有价值的流量。


这样直接总结相关内容,会不会影响广告收入?谷歌表示,广告仍将作为重要的收入来源出现在页面中,这些广告将在专门位置清晰地标识出来,以区分自然搜索结果和赞助搜索结果。这种做法保持了用户体验的透明度,确保用户能清楚地识别内容的来源。


“AI Overviews”功能今天开始在美国全面推广,并计划很快在其他国家和地区推出。预计本周将有数亿美国用户体验到这一服务,而到今年年底,全球访问用户数有望突破 10 亿。


除了“AI Overviews”,谷歌也会进一步推出新的多步骤推理功能。用户无需将一个复杂的问题拆分成多个单独的搜索请求,而是可以直接提出包含各种细节和注意事项的复杂问题。定制的 Gemini 模型会深入分析和理解问题的多个层面,将一个大型问题分解为多个部分,进而为用户提供全面而精确的信息概述,从而简化搜索过程,提高解决问题的效率和准确性。通过这种方式,原本可能需要几分钟甚至几小时才能完成的研究工作,现在只需几秒钟即可得出结果。


同时,谷歌 AI 搜索还能协助用户制定详细计划。这项新增的规划功能使用户能直接在搜索界面中制定各种计划,包括用餐安排和假期规划等。用户能够通过一个简单的搜索查询,如“为一组人创建为期三天的简易餐食计划”,快速获得一个包含多种网上食谱的初始餐食计划。这些结果会按天展示,每一天都包含多个链接到具体烹饪网站的食谱卡片。用户如果对搜索出的餐食计划中的某些选项不满意,可以很容易地请求调整,例如将晚餐更换为素食菜品。随后,搜索功能会根据用户的新要求定制修改餐食计划。


新的谷歌搜索还将利用生成式 AI 技术帮助用户寻找灵感和新想法。当用户进行搜索以获取创意或解决方案时,它能够与用户集思广益,自动整理和生成一个易于浏览的结果页面。这个页面将包含归类明确的结果,每类结果都配有由 AI 生成的独特标题,涵盖广泛的视角和内容类型。


此外,随着视频理解技术的进步,谷歌搜索还允许用户直接通过视频来提出问题,这一功能尤其适合那些难以用文字描述的情况。例如,你发现购买的唱片机无法工作,唱针的金属片有异常漂移,你可能难以找到准确的词汇来描述这个问题。现在只需上传关于唱片机的视频,谷歌搜索将自动解析视频内容,并提供一个包含故障排除步骤和相关资源的 AI 概述。


除了以上内容,谷歌还进行了诸多细节展示。但总的来说,谷歌在大会上并没有展示令人十分振奋的产品,更多看到的是,谷歌正在通过“Gemini”这一核心项目,系统地整合和优化其庞大的资源和技术,全面提升其服务生态系统。


但这样的整合是否能在如今的“AI 大战”中保持优势,还需要观望。而谷歌要想重回在 AI 领域的引领地位,还需要拿出像 OpenAI 那样令人眼前一亮的产品。当然,谷歌的实力依旧不容小觑,要不然 OpenAI 也不会总是想着抢其风头,对谷歌形成一种舆论上的压制。


参考资料:

1.https://io.google/2024/intl/zh/

2.https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

3.https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/

4.https://blog.google/products/gemini/google-gemini-update-may-2024/

5.https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/#gemini-era

科技分类资讯推荐

最新消息!她已离职!曾凌晨发文道歉 - 天天要闻

最新消息!她已离职!曾凌晨发文道歉

本月初,百度副总裁璩静在短视频平台上发布的几条出镜视频引发网友关注,特别是其提到“员工闹分手提离职我秒批”等职场话题引发网友质疑,一度登上微博热搜。
淘宝取消“618”预售机制后,京东宣布“现货开卖” - 天天要闻

淘宝取消“618”预售机制后,京东宣布“现货开卖”

继5月7日天猫宣布取消“618”预售机制后,5月8日,京东也正式宣布“现货开卖”。今年京东618将于5月31日晚8点全面开启。据了解,现货开卖的同时,京东还将同步推出百亿补贴日活动。在6月2日、6月3日、6月8日,还将先后推出9.
细思极恐网络暴力和群殴 - 天天要闻

细思极恐网络暴力和群殴

互联网高速发展利用时代踏实做事和说实话的人都不被人待见,时时刻刻遭受网络暴力,声讨,群殴,格力电器董明珠,踏踏实实做企业,创税收,促进就业,,为国家为人民奉献大半辈子青春,心血, 汗水,本该退休安享晚年,侍弄儿孙遗憾找不到合适放心接班人,七
探秘vivo影像之美,与X系列技术沟通会共同见证卓越蓝图 - 天天要闻

探秘vivo影像之美,与X系列技术沟通会共同见证卓越蓝图

前段时间的vivo X系列新品发布让我们记忆深刻,而刚刚结束结束的“影像新蓝图X系列技术沟通会”也十分精彩,这次沟通会不仅告诉了大家vivo在影像领域的最新成果,也让粉丝们对vivo影像背后的故事有更多了解,在vivo影像的发展历程中可以分成两方面,一方面,vivo通过自主研发,不断提升自身的影像技术实力,另一方面,vivo...
华为再次亮剑,鸿蒙系统亮点多多 - 天天要闻

华为再次亮剑,鸿蒙系统亮点多多

5月15日,华为夏季全场景新品发布会简直是一场视觉与科技的盛宴,看得我热血沸腾!不得不说,华为这次真的是大招频出,新品多到让人眼花缭乱!先说说那个华为MatePad 11.5 ” S吧,一亮相就让人眼前一亮!它的设计简约而不失时尚,屏幕清晰得让人仿佛置身其中。
【新机】升级了个寂寞?蓝厂新机发布 - 天天要闻

【新机】升级了个寂寞?蓝厂新机发布

昨天晚上蓝厂发布了新机iQOO Neo9s Pro,机子采用了6.78英寸1.5K 8T LTPO直面屏,支持144Hz刷新率。搭载天玑9300+,前置1600万像素,后置IMX920主摄+5000万超广角。电池容量5160mAh,支持120W快充。新增白色版本,用上了白色玻璃后盖,颜值确实提升了不少。不过还是塑料中框+短焦指纹。12+256GB 2699元
AI Agent在哪些行业领域会产生影响? - 天天要闻

AI Agent在哪些行业领域会产生影响?

在如今飞速前进的科技浪潮中,人工智能(AI)技术的创新正以前所未有的速度重塑我们的生活和工作的每一个角落。在这一浪潮中,Agent AI智能体以其卓越的能力脱颖而出,它通过模拟人类智能行为,能够胜任一系列复杂任务,并在多个领域展现出了其无法替代的价值。