什么是自监督学习？一文告诉你

2024年03月26日10:45:04 科技 1147

什么是自监督学习？

自监督学习由计算机科学家 Yann LeCun 于 2017 年开发，现已渗透到 Facebook、谷歌和微软等科技梯队以及规模较小的尖端机构。这是人工智能（AI）领域最热门的事情。

从本质上讲，LeCun 建议用机器来模拟儿童。他认为，就像孩子们沉浸在某些环境中并在大脑成熟时受到文化和发展的影响一样，机器也可以。孩子们自然会接触到监督学习和非监督学习。当教师使用批量标记数据对他们进行训练时，就是监督学习。例如，他们会看到图像并被告知“这是一种兽脚亚目恐龙，名为巨兽龙”和“这个人是乔治·华盛顿”。

与此同时，他们自然地、自动地学习演绎、归纳、关联和预测，这是他们大脑/思想的固有功能。这就是自我监督学习发挥作用的地方。人类在发展过程中会遇到各种未标记的数据（事件和概念），并共生地形成自己的结论。本质上，自监督学习是一类使用数据中可用的监督来训练机器学习模型的学习方法。自监督学习用于训练 Transformer——自然语言处理和图像分类领域最先进的模型。

Transformer

Transformer 是一种复杂的 ML 驱动模型，它使用自然语言处理 (NLP) 原理将简单的图像或标题“转换”为洞察力的字体，能够通过探测数据示例的一部分来找出正确的信息，从而做出明智的决策。剩余的部分。该数据可以是文本、图像、视频、音频或任何内容。

Transformer本质上是一个序列到序列的模型，它将输入序列转换为输出序列，例如将句子从源语言翻译为目标语言。 Transformer 涉及两个组件：编码器和解码器。编码器通过对输入序列之间的依赖关系进行建模来学习处理输入序列，以便更好地表示翻译的输入。使用称为自注意力机制的技术对依赖关系进行建模。解码器学习使用称为注意机制的技术将输入序列映射到输出。

最终结果与基于大量数据的机器学习程序相同。也就是说，模型学习形成关联、相关性、识别模式并执行统计估计等功能。换句话说，自我监督学习模型提取并使用有机上下文和嵌入式元数据来形成相关的实时见解。

自监督学习的作用

自督学习主要侧重于提高计算机视觉和 NLP 能力。其主要用于以下用途：

用于对灰度图像进行着色的着色。
上下文填充，该技术填充图像中的空间或预测录音或文本中的间隙。
视频运动预测，它提供特定帧之后所有可能视频帧的分布。

无论自我监督学习多么流行，它仍然距离理解人类语言或直观地理解图像的上下文或细微差别还很远。

自监督学习的例子

在医疗保健和医学领域，自监督学习通过估计人体和大脑的密集深度，为机器人手术和单眼内窥镜检查做出了贡献。它还通过改进的计算机视觉技术（例如着色和上下文填充）增强医学视觉效果。
通过自动驾驶，自我督的人工智能可以帮助汽车在越野时“感受”地形的粗糙度。该技术还提供深度估计，帮助汽车在行驶时识别与其他汽车、人或物体的距离。

科技

谷歌将推出第六代TPU芯片Trillium 算力表现提升4.7倍 - 天天要闻

谷歌将推出第六代TPU芯片Trillium 算力表现提升4.7倍

【CNMO科技消息】5月15日凌晨，谷歌召开2024年I/O开发者大。据CNMO了解，在大会上，谷歌公司首席执行官桑达尔·皮查伊（Sundar Pichai）正式宣布了其全新的第六代TPU芯片——Trillium。这款芯片被谷歌誉为“迄今为止性能最强、能效最高的TPU”，相较于前代产品TPU v5e，Trillium在峰值计算性能上实现了惊人的4.7倍提升。

05月15日 2075

早报：三星S25 Ultra或采用三摄小米SU7最新销量0.11万 - 天天要闻

早报：三星S25 Ultra或采用三摄小米SU7最新销量0.11万

【CNMO科技早报】三星S25 Ultra的相机细节最近在网上曝光，消息称，下一代三星旗舰手机将有重大变化；根据理想汽车官方发布的最新销量排行榜，小米汽车在5月6日至5月12日的销量为0.

05月15日 1454

谷歌开始反击推出AI助手ProjectAstra 正面硬刚GPT-4o - 天天要闻

谷歌开始反击推出AI助手ProjectAstra 正面硬刚GPT-4o

【CNMO科技消息】在备受瞩目的谷歌I/O大会上，谷歌揭幕了一款名为Project Astra的通用人工智能系统，旨在与OpenAI的GPT-4o展开竞争。Project Astra不仅支持实时对话，还能通过视频聊天的方式与用户进行交互。

05月15日 1882

谷歌宣布Gemini AI融入Android 15系统手机变得更聪明 - 天天要闻

谷歌宣布Gemini AI融入Android 15系统手机变得更聪明

【CNMO科技消息】5月15日凌晨，谷歌在I/O大会上宣布，Android 15将深度整合其Gemini大模型，为用户带来一系列前沿的AI功能。其中，备受瞩目的即圈即搜功能将不仅限于搜索物体，更增加了截图与题目解答的智能化处理。

05月15日 1200

人形机器人概念，哪家企业利润最强？ - 天天要闻

人形机器人概念，哪家企业利润最强？

消息:宇树科技发布新款人形机器人。5月13日，宇树科技发布了一款名为Unitree G1的新型人形机器人，售价9.9万元(约1.5w美金，远低于特斯拉的目标价2w美金)。宇树科技宇树科技成立于2016年，位于浙江省杭州市。

05月15日 1489

谷歌搜索引擎问世 25 年最大更新，“AI Overviews”体验正式上线 - 天天要闻

谷歌搜索引擎问世 25 年最大更新，“AI Overviews”体验正式上线

IT之家 5 月 15 日消息，谷歌公司在今天召开的 2024 年 I / O 开发者大会上，正式推出了“AI Overviews”搜索体验，将于本周开始向美国地区开放，后续会推广到更多国家和地区。谷歌首席执行官桑达尔・皮查伊（Sundar Pichai）出席本次活动，表示：“我很高兴地宣布，我们将于本周开始向美国的所有人推出这一全面革新的体验...

05月15日 1836

苹果 iOS 17.5 安全修复补丁导致欧洲第三方应用商店运行出现 BUG - 天天要闻

苹果 iOS 17.5 安全修复补丁导致欧洲第三方应用商店运行出现 BUG

IT之家 5 月 15 日消息，根据官方支持文档，苹果公司近日发布的 iOS / iPadOS 17.5 更新中，包含了 15 个针对 iPhone 和 iPad 的安全补丁，不过其中一项补丁导致第三方应用商城运行出现 BUG。开发者 Mysk 表示，苹果在 iOS / iPadOS 17.5 更新中发布了与 MarketplaceKit 框架相关的安全补丁

05月15日 5760

翻倍：谷歌将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens - 天天要闻

翻倍：谷歌将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens

IT之家 5 月 15 日消息，谷歌公司在今天召开的 2024 年 I / O 开发者大会上，宣布升级 Gemini 1.5 Pro 模型，将上下文窗口（AI 模型可理解的信息量）从当前 100 万 tokens 增加到 200 万。谷歌表示升级之后，Gemini 1.5 Pro 能够同时处理 2 小时的视频、22 小时的音频、6 万多行代码或 140 多万

05月15日 4796

谷歌 Gemini 家族添 Flash 新成员：平衡规模和能力、支持多模态 - 天天要闻

谷歌 Gemini 家族添 Flash 新成员：平衡规模和能力、支持多模态

IT之家 5 月 15 日消息，谷歌公司今天扩充 Gemini 家族成员，推出了全新的 Gemini 1.5 Flash 模型，重点优化了该模型的速度和效率。谷歌 DeepMind 首席执行官德米斯・哈萨比斯（Demis Hassabis）在一篇博客文章中写道：Gemini 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。

05月15日 2372

谷歌今夏推“Ask Photos”功能，聊天方式更快找到照片和视频 - 天天要闻

谷歌今夏推“Ask Photos”功能，聊天方式更快找到照片和视频

IT之家 5 月 15 日消息，谷歌公司在今天召开的 2024 年 I / O 开发者大会上，宣布今年夏季将为 Google Photos 推出“Ask Photos”辅助服务，带来更贴心的搜索体验。谷歌首席执行官桑达尔・皮查伊现场演示，询问 Google Photos 应用：“我的车牌号是多少来着？”此前用户搜索车牌需要滚动浏览许多不同汽车的照片，而在演示

05月15日 3436