文|墨卿烟
编辑|墨卿烟
前言
足球,当今世界上的第一大运动,比赛和训练的强度也是非常的大,为了保证球员的身体,相关的疲劳监测俨然已经成为主流。
为了量化训练负荷,一些厂商们纷纷推出可穿戴设备传感器,如包含全球定位系统功能和加速度计的微机电系统,尽管有关外部负荷监测的知识取得了进步,但是仍然有许多不足的地方。
足球运动中常见的疲劳监测方法包括主观和客观观测量,尽管如此,关于此类测试的几个问题仍然存在,例如球员的买入,对球场表现缺乏直接影响以及测试缺乏特异性。
目前正在探索改进疲劳监测策略存在着一个途径,那就是使用三轴加速度计来捕获矢量量化的三维运动,并已被用作身体负荷的全局指标或检测足球运动员的疲劳状况。
在证明这一三维运动衍生的指标可以可靠地使用后,科学家们观察到在前一周训练负荷很高后,之后在比赛中每分钟的指标都会有所增加。
所以科学家们认为球员活动的这种变化,可能与潜在的疲劳状态有关,因为以前的值用于进行比较,这种标准化在精英足球中几乎是看不到的。
那么,究竟该如何创造出,能够准确预测球员身体状态变化的装置呢?
设想提出
在这方面兰蔻等人提出了评估预测模型与作为球员的心率之间,直接比较的有效性的概念,这种方法的一个优点就是,它允许人们在不测试球员的情况下对球员的准备情况做出一些假设。
虽然这种方法看起来很有前途,但是它只能评估球员的健康状况,因此用类似的方法来评估球员的神经肌肉状态,也许是一个不错的选择。
出于这个原因,科学家们将开发一种使用机器学习技术,来评估球员们神经肌肉状态的新方法作为了自己的主要目标,为此科学家们评估了训练和比赛期间收集到的外部负荷数据。
材料和方法
在上近五百次的训练和上百场正式比赛期间,科学家们记录了球员的外部负荷,平均每个球员们记录了将近两百次。
记录结果不够次数的受试者会被排除在进一步分析之外,以便删除由于受伤或任何其他原因,而在赛季中仅部分参加比赛的球员。
此次科学家们使用的新系统,是由多个不同的惯性传感器组成,其有效性和可靠性之前已经过测试,卫星定位设备通过紧身背心放置在球员的肩胛骨之间,提取了不同的外部负载指标。
数据分析
此次研究的主要目的是开发一种可以使用的机器学习技术,以此评估球员神经肌肉状态,使用外部负荷数据来预测训练或比赛球员的负载数据,因此,使用训练数据集构建了多个数据模型
科学家们利用这些数据模型来进行分析,其中每个示例代表球员们的训练过程,并由描述球员们外部负载的向量组成。
使用不同的模型来预测训练或匹配数据,这是科学家们的目标变量,在训练期间和比赛中累积的数据是按照三维运动捕捉系统的建议,以及先前研究中提出的计算的。
统计分析
采用受试者内线性混合模型来分析数据的均值差,其中与季节相关的信息数据占到了很大的比重,线性混合模型还用于分析该数据相对于前几个星期的变化。
根据比赛前几天对一周中的另外几天进行分类,为了避免与另一模型有关的混淆因素,只考虑了打0分钟的球员,此外科学家们还研究了负载数据如何随工作量变化而变化。
在过去5天内累计,考虑到一周的负荷管理和负荷分配,会随着球队或教练的理念而变化,我们将这些分析仅限于一线队,显示了第一梯队每周负荷分布。
当科学家们发现统计学上显着的差异时,他们便选择用最不显着的差异方法进行多重比较,还计算了标准化效应量,即根据平均差与合并标准差的比率估计。
这些差异分别被解释为小、中和大差异统计分析使用社会科学统计软件包进行计算,统计学显著性的阈值设定为p。
结果
在选定的算法中,随机森林回归算法表现出最佳的性能,在五倍交叉验证后显示出最佳性能后,随机森林回归被科学家们用于进一步分析,在这之后,他们选择了七个外部负载指标并进行特征重要性分析。
算法选择
外部负荷数据、球员位置和训练类型等特征在计算模型中被视为预测因子,并根据目标变量来进行建模,主要用到的算法有:极端梯度提升、随机森林回归、线性回归。
描述该模型的基本数学函数并不代表本研究的目的,然而,提升算法和随机森林回归算法是基于集成学习的方法,选中它们,也是因为在处理回归问题中的效率,和识别高维数据中非线性相互作用时,它们有着较强的能力。
相比之下,选择线性回归是因为其在识别自变量和因变量之间的线性关系方面具有简单性。
数据预处理
在开发这一系统时,科学家们采用了预处理技术,来最大限度地提高每个模型的性能,部分、个人和康复课程被排除在分析之外。
为了消除任何可能影响结果的混杂因素,因此只考虑球员完全完成的训练课程,分类预测因子在插入逻辑回归模型之前经过一个热编码过程。
此外在线性回归训练之前,所有特征都使用最小最大缩放器进行归一化,规范化确保所有特征都公平地贡献了学习过程,但是分布式梯度增强库是基于树模型的算法,所以并不需要规范化。
特征消除、超参数调优和交叉验证
执行递归特征消除以去除可能增加过度拟合风险的相关特征,实施随机森林回归算法也是为了识别与预测数据值最相关的特征。
在这个初始过程之后,科学家们使用随机搜索来调整随机森林回归中的超参数,而在线性回归中则不存在任何可调的超参数。
后来科学家们使用三重交叉来验证调整超参数,并选择在每次折叠中产生最佳性能的超参数组合,20%的数据集使用随机森林回归和随机搜索,而其余80%则使用五重交叉验证,以此来测试不同的模型。
模型评估
最后科学家们使用均方根误差和平均绝对百分误差,评估了每个模型的适用性,均方根误差和平均绝对百分误差表明模型具有良好的预测能力,特别是平均绝对百分误差的值非常低,这表明预测非常准确。
预测的数据可以使科学家们观察到训练中最常见的数据变化,并对其做出预测,科学家们对最佳性能的模型进行了特征重要性的分析。
此外科学几门为了理解该模型在线式世界中的实用性,他们建议用类似的方式来模拟季节的变换,以此获得了在不同季节下,球员们不同的负载数据。
以前的研究表明,球员负载的变化可用于检测足球运动员的疲劳,机器学习技术用来开发基于负载数据预测的新运动效率指数。
在整个赛季中监测了多名精英足球运动员,卫星定位系统用于收集外部负载数据,这些数据又用于预测训练和比赛期间的负载数据,随机森林回归产生了最佳性能。
并被纳入进一步的分析中,计算逻辑回归模型预测的负载数据值与真实模型之间的差异,使用数据分数变换为每个参与者进行个性化设置,并将其解释为疲劳或神经肌肉准备的迹象。
科学家们使用线性混合模型来分析该数据如何根据季节、星期几和每周负载而变化,关于季节变化,最低和最高数据值分别被记录在季节开始时和季节中期,并且结果显示比赛日的负载值较低。
实际运用
逻辑回归模型技术的采用可用于计算每个参与者的负载数据,并量化他们的神经肌肉准备情况,这种方法具有许多优点。
它可以使球员每天评估神经肌肉新鲜度,并且可以通过“隐形”的方法检测疲劳的可能性,而不必让球员接受测试,以此来了解球员的日常准备情况可以帮助教练和体能教练改进恢复策略设计并优化训练负荷管理。
结论
此次研究的目的就是为了开发基于机器学习方法的新运动效率指数,但是科学家们考虑到与监测精英足球运动员状态相关的固有挑战,这次研究为运动检测领域开辟了新的可能性。
事实上,这项研究的初步结果显示,运动效率指数是会根据季节的不同、每周期内的某一天以及训练负荷的变化而有明显的波动的。
科学家们表示,想要让这一技术更加完善,未来的研究还需要进一步验证这种方法对神经肌肉疲劳的预测程度。
在阅读此文后,烦请您关注+评论,方便剩下后续事件有新的进展能够让您迅速关注到