田英杰、唐静静:机器学习与最优化

机器学习是一门多领域交叉学科。特别地,机器学习和最优化紧密交织在一起。优化问题是大多数机器学习方法的核心,许多机器学习问题都会转化成优化问题求解。

《机器学习与最优化》田英杰,唐静静著. 北京: 科学出版社,2024. 5)作者一直从事机器学习与最优化方面的研究,本书是作者近年来一些研究工作的系统梳理与总结。

左右滑动查看 目录 →

《机器学习与最优化》从经典的支持向量出发,以分类问题为基础,以最优化为工具,阐述机器学习中的基本概念和经典学习问题。本书旨在介绍有关问题的最新研究成果,其中作者自己最近几年的工作占了相当大的比重。在讲述这些工作时,着重阐明其研究背景和逻辑思路,并由此扩展到国内外最新研究成果。

具体的内容设置如下:首先介绍分类任务中的经典模型——支持向量机,其次介绍优化算法、损失函数和正则技术,最后介绍机器学习的各种学习问题,主要包括:多视角学习、多标签学习、多示例学习、多任务学习和度量学习。围绕这些学习问题,介绍我们的研究成果。在每章最后一节,给出拓展阅读,介绍相关研究工作的最新进展,并列出相应参考文献,旨在满足读者进一步学习的需求。

第1章

支持向量机

支持向量机(support vector machine,SVM)是由Vapnik 等学者于20 世纪90 年代提出来的一类模型,已广泛应用于诸多领域。它的成功得益于最大间隔原则、对偶理论和核函数这三个核心技术的应用。本章介绍经典的超平面平行与非平行的支持向量机,并在拓展阅读部分对二分类与多分类支持向量机的代表性工作以及研究进展进行总结。

第2章

优化算法

许多机器学习问题都会转化成优化问题求解。因此优化算法成为机器学习最重要的组成部分之一。优化算法的研究由来已久,特别是由于近年来机器学习的迅猛发展,优化算法取得了长足的进步。本章重点介绍在机器学习领域行之有效的优化算法,包括确定型优化算法和随机型优化算法;在拓展阅读部分,对若干应用领域和随机型优化算法中的代表性工作及研究进展进行总结。

第3章

损失函数

损失函数,又称代价函数,常用于表示或度量决策函数产生的误差。损失函数是影响模型性能的关键因素之一。对各种已有损失函数的深入理解是选择和构造损失函数的前提和基础。本章针对机器学习中的分类问题、回归问题和无监督问题,分别介绍它们常用的损失函数,并进行总结与分析。最后介绍损失函数在深度学习中的一些研究进展。

第4章

正则技术

正则技术的任务是把向量或矩阵近似地转化为更简单的形式,它有助于在机器学习的建模过程中避免过拟合问题,提高模型的泛化性。本章把常用的正则技术分为三类,即向量稀疏正则、矩阵稀疏正则以及矩阵低秩正则,从每个正则技术的应用场景入手,依次介绍各种正则技术及其性质,并予以总结与分析。然后介绍了正则技术在深度学习中的一些研究进展。

第5章

多视角学习

如何综合利用多视角数据有效地学习,已成为机器学习领域的一个研究热点。本章首先介绍多视角学习问题的一种提法及处理多视角学习问题应该遵循的原则。然后在经典模型SVM-2K 的基础上,构建基于特权信息学习理论的两视角支持向量机,并给出其相关的理论分析。最后从传统机器学习和深度学习的角度介绍近年来的一些研究进展。

多视角数据

第6章

多标签学习

在机器学习领域,如何对多标签的数据进行有效学习,已成为一个热点问题。本章将介绍多标签分类问题概念及利用二元关联与排序支持向量机的解决方法。为更好地探索标签之间的相关性,本章还介绍了一种新的代价敏感的多标签分类模型,并给出了相关算法与理论分析。最后从传统机器学习和深度学习的角度介绍了近年来的一些研究进展。

多标签分类例子

第7章

多示例学习

多示例学习属于弱监督学习,已成功应用到了多种学习场景,本章首先介绍多示例学习问题,然后介绍求解多示例分类问题的支持向量机,并针对对称多示例学习问题构建稀疏多示例支持向量机,最后从传统机器学习和深度学习的角度介绍近年来的一些研究进展。

多示例学习问题几何解释

第8章

多任务学习

多任务学习的特点是在训练过程中借助多个任务之间的内在关联来优化每个子任务的学习方法。本章首先介绍多任务学习的基本概念和经典算法,同时给出一个多任务特征选择模型和相应的理论分析,然后从传统多任务学习、深度多任务学习以及多任务与其他学习范式结合这三个方面对多任务学习算法进行较为系统的介绍。

多任务学习

第9章

度量学习

距离度量是构建损失函数的关键,度量学习(metric learning)就是学习一个适合当前机器学习问题的距离度量。本章首先给出度量学习的定义,再介绍全局度量学习和局部度量学习,然后介绍基于特征分解的度量学习,最后从传统机器学习和深度学习的角度总结近年来的研究进展。

度量学习的几何解释

本书不仅可作为机器学习领域研究生的扩充阅读资料,也可作为相关专业教师和科研人员的参考书,还可供对本领域知识有兴趣的读者自学之用。我们特别关注有关领域正在进行理论研究和应用研究的读者。希望能借助本书帮助他们理解问题本质和最新进展,从而取得快速的进步。

本书的出版,得到中国科学院虚拟经济与数据科学研究中心、中国科学院大学经济与管理学院、中国科学院大数据挖掘与知识管理重点实验室、西南财经大学工商管理学院大数据研究院等单位的支持;得到国家自然科学基金(项目编号:12071458,71901179,71731009,71991472)及西南财经大学“光华英才工程”的资助。

本文摘编自《机器学习与最优化》(田英杰,唐静静著. 北京:科学出版社,2024. 5)一书。

ISBN 978-7-03-076754-7

责任编辑:胡庆家 范培培

本书以机器学习中的分类问题为基础,以最优化为工具,阐述机器学习中的基本概念和经典学习问题,并围绕这些学习问题,介绍相关研究成果,重点阐明其研究背景和逻辑思路,并由此扩展到国内外最新研究进展。主要内容包括:支持向量机、优化算法、损失函数、正则技术,以及多视角学习、多标签学习、多示例学习、多任务学习和度量学习等。

本书可作为机器学习领域研究生的扩充阅读资料,也可作为相关专业教师和科研人员的参考书。

(本文编辑:刘四旦)

原创好读 科学品位

科学出版社 视频号

硬核有料 视听科学