什么是自监督学习?一文告诉你

什么是自监督学习?

自监督学习由计算机科学家 Yann LeCun 于 2017 年开发,现已渗透到 Facebook、谷歌和微软等科技梯队以及规模较小的尖端机构。这是人工智能(AI)领域最热门的事情。

从本质上讲,LeCun 建议用机器来模拟儿童。他认为,就像孩子们沉浸在某些环境中并在大脑成熟时受到文化和发展的影响一样,机器也可以。孩子们自然会接触到监督学习和非监督学习。当教师使用批量标记数据对他们进行训练时,就是监督学习。例如,他们会看到图像并被告知“这是一种兽脚亚目恐龙,名为巨兽龙”和“这个人是乔治·华盛顿”。

与此同时,他们自然地、自动地学习演绎、归纳、关联和预测,这是他们大脑/思想的固有功能。这就是自我监督学习发挥作用的地方。人类在发展过程中会遇到各种未标记的数据(事件和概念),并共生地形成自己的结论。本质上,自监督学习是一类使用数据中可用的监督来训练机器学习模型的学习方法。自监督学习用于训练 Transformer——自然语言处理和图像分类领域最先进的模型。

Transformer

Transformer 是一种复杂的 ML 驱动模型,它使用自然语言处理 (NLP) 原理将简单的图像或标题“转换”为洞察力的字体,能够通过探测数据示例的一部分来找出正确的信息,从而做出明智的决策。剩余的部分。该数据可以是文本、图像、视频、音频或任何内容。

Transformer本质上是一个序列到序列的模型,它将输入序列转换为输出序列,例如将句子从源语言翻译为目标语言。 Transformer 涉及两个组件:编码器和解码器。编码器通过对输入序列之间的依赖关系进行建模来学习处理输入序列,以便更好地表示翻译的输入。使用称为自注意力机制的技术对依赖关系进行建模。解码器学习使用称为注意机制的技术将输入序列映射到输出。

最终结果与基于大量数据的机器学习程序相同。也就是说,模型学习形成关联、相关性、识别模式并执行统计估计等功能。 换句话说,自我监督学习模型提取并使用有机上下文和嵌入式元数据来形成相关的实时见解。

自监督学习的作用

自督学习主要侧重于提高计算机视觉和 NLP 能力。其主要用于以下用途:

  • 用于对灰度图像进行着色的着色。
  • 上下文填充,该技术填充图像中的空间或预测录音或文本中的间隙。
  • 视频运动预测,它提供特定帧之后所有可能视频帧的分布。

无论自我监督学习多么流行,它仍然距离理解人类语言或直观地理解图像的上下文或细微差别还很远。

自监督学习的例子

  • 在医疗保健和医学领域,自监督学习通过估计人体和大脑的密集深度,为机器人手术和单眼内窥镜检查做出了贡献。它还通过改进的计算机视觉技术(例如着色和上下文填充)增强医学视觉效果。
  • 通过自动驾驶,自我督的人工智能可以帮助汽车在越野时“感受”地形的粗糙度。该技术还提供深度估计,帮助汽车在行驶时识别与其他汽车、人或物体的距离。