始智ai wisemodel.cn开源社区
![YOLOv10性能效率大幅提升,清华开源新一代实时目标监测模型 - 天天要闻](https://cdn-dd.lujuba.top/img/loading.gif)
近日,清华大学推出了新一代yolov10模型,此次的yolov10模型做出了多方面的调整和优化。该模型已经上线始智ai wisemodel.cn开源社区,欢迎大家前往wisemodel社区下载体验。
![YOLOv10性能效率大幅提升,清华开源新一代实时目标监测模型 - 天天要闻](https://cdn-dd.lujuba.top/img/loading.gif)
https://wisemodel.cn/models/thu-mig/yolov10
1.在head部分,创造性地融合了one-to-one和one-to-many两种模式,既利用了one-to-many丰富的监督(supervision)信号来训练优化模型参数保证模型的精度,又采取one-to-one进行推断(inference)来避免nms后处理从而提高推断速度。论文作者将这种方式称为:双重标签分配(dual label assignment)。
一、双重标签分配
存在问题:
yolo通常在训练过程中采用一对多的标签分配策略,其中一个真实情况(ground-truth)物体对应于多个正(positive)样本。尽管这种方法取得了优越的性能,但它需要在推理过程中使用nms(non-maximum suppression,非极大值抑制)来选择最佳的阳性预测。这降低了推理速度,并使性能对nms的超参数敏感,从而阻碍了yolo实现最优的端到端部署。解决这个问题的一条途径是采用最近引入的端到端detr架构。例如,rt-detr提出了一种有效的混合编码器和非确定性最小 query 选择,将detr推向了实时应用领域。然而,部署detr的固有复杂性阻碍了它在准确性和速度之间达到最优平衡的能力。另一条途径是探索基于cnn的检测器的端到端检测,这通常利用一对一的分配策略来抑制冗余预测。然而,它们通常引入额外的推理开销或达到次优性能。
解决方案:
![YOLOv10性能效率大幅提升,清华开源新一代实时目标监测模型 - 天天要闻](https://cdn-dd.lujuba.top/img/loading.gif)
二、全面效率-准确性驱动的模型设计(holistic efficiency-accuracy driven model design)
效率驱动的模型设计:(提高效率,减小计算成本)
yolo的组件包括干线(stem)、下采样层(downsampling layers)、具有基本构建块的阶段(stages with basic building blocks)和头部(head)。干线产生的计算成本很少,因此 研究人员对其他三个部分进行了效率驱动的模型设计。
1.轻量级分类头部。在yolo中,分类和回归头部通常具有相同的架构。然而,它们在计算开销上表现出显著的差异。例如,在yolov8-s中,分类头部(5.95g/1.51m)的flops和参数计数是回归头部(2.34g/0.64m)的2.5倍和2.4倍。然而,经过分析分类误差和回归误差(见表6)的影响后,研究人员发现回归头部对yolo的性能更为重要。因此,可以在不担心大幅损害性能的情况下减少分类头部的开销。研究人员简单地为分类头部采用了轻量级架构,该架构由两个深度可分离卷积[24,8]组成,核大小为3×3,后跟1×1卷积。
2.空间-通道解耦下采样。yolo通常利用标准的3×3卷积,步长为2,同时实现空间下采样(从h×w到h^2×w^2)和通道转换(从c到2c)。这引入了不可忽视的计算成本o(9^2hwc^2)和参数数量o(18c^2)。研究人员提议将空间缩减和通道增加操作解耦,实现更高效的下采样。具体来说,首先利用点卷积来调节通道维度,然后使用深度卷积来执行空间下采样。这将计算成本降低到o(2hwc^2 + 9^2hwc),参数数量降低到o(2c^2 + 18c)。同时,它最大化了下采样期间的信息保留,更好地降低了延迟。
![YOLOv10性能效率大幅提升,清华开源新一代实时目标监测模型 - 天天要闻](https://cdn-dd.lujuba.top/img/loading.gif)
三、准确性驱动的模型设计:(提高准确性)
研究人员进一步探索了大核卷积和自注意力,以准确性为驱动进行设计,旨在在最低成本下提高性能。
1.大核卷积。使用大核深度卷积是扩大感受野和增强模型能力的有效方法。然而,简单地在所有阶段使用它们可能会引入浅层特征的污染,这些特征被用来检测小物体,同时也会引入高分辨率阶段的显著i/o开销和延迟。因此,研究人员提议在深层阶段的cib中使用大核深度卷积。具体来说,研究人员将cib中第二个3×3深度卷积的核大小增加到7×7,参考。此外,研究人员采用结构重参数化技术,引入另一个3×3深度卷积分支,以减轻优化问题,而不增加推理开销。此外,随着模型大小的增加,其感受野自然扩大,使用大核卷积的好处也在减少。因此,研究人员只为小模型尺度采用大核卷积。
2.部分自注意力(psa)。由于其显著的全局建模能力,自注意力被广泛用于各种视觉任务。然而,它表现出高计算复杂性和内存占用。为了解决这个问题,鉴于普遍存在的注意力头冗余,研究人员设计了一个高效的部分自注意力(psa)模块设计,如图(c)所示。具体来说,研究人员在1×1卷积后将特征均匀地跨通道分成两部分。只将一部分输入由多头自注意力模块(mhsa)和前馈网络(ffn)组成的npsa块。然后将两部分连接起来,并通过1×1卷积进行融合。此外,将查询和键的维度设置为mhsa中值的一半,并将layernorm替换为batchnorm,以实现快速推理。此外,psa仅放置在具有最低分辨率的第4阶段之后,避免了自注意力的二次计算复杂性带来的过度开销。通过这种方式,可以将全局表示学习能力以低计算成本纳入yolo,这很好地增强了模型的能力并改进了性能。
本文是对yolov10的简单介绍,更多详细信息请查询论文:
论文地址:https://arxiv.org/pdf/2405.14458
项目地址:https://github.com/thu-mig/yolov10
整理丨张皓程
编辑丨赵雅鑫
----- end -----
![YOLOv10性能效率大幅提升,清华开源新一代实时目标监测模型 - 天天要闻](https://cdn-dd.lujuba.top/img/loading.gif)
wisemodel相关
系统升级
![YOLOv10性能效率大幅提升,清华开源新一代实时目标监测模型 - 天天要闻](https://cdn-dd.lujuba.top/img/loading.gif)
![YOLOv10性能效率大幅提升,清华开源新一代实时目标监测模型 - 天天要闻](https://cdn-dd.lujuba.top/img/loading.gif)