始智ai wisemodel.cn开源社区
随着高分辨率成像技术的飞速发展,图像分割技术已从传统的粗略定位迈入高精度细节处理时代。无论是工业检测(如桥梁裂缝检测)、医疗影像分析,还是影视特效制作(如动态毛发抠图),都对图像分割的精细度要求越来越高。
然而,现有方法在处理高分辨率图像时面临两大难题:细节丢失与计算成本高昂。精细结构(如毛发、裂纹)的分割精度不足,以及训练超大尺寸图像时的资源消耗,成为技术落地的瓶颈。
在此背景下,南开大学媒体计算实验室联合多个科研团队提出birefnet,一种基于双边参考框架的高效、高精度图像分割模型。该模型在dis(高精度图像二值分割)、cod(伪装目标检测)、hrsod(高分辨率显著目标检测)等任务中表现卓越,以6.8%的平均性能提升超越现有方法,并成功应用于工业检测、影视制作等领域。
截至目前,birefnet github主页已获2k stars,hugging face社区模型总下载量超过三百万,可以说,birefnet是目前最好的开源高精度图像分割方案。同时,birefnet也已上线始智ai-wisemodel开源社区,欢迎前去体验。

模型地址
https://wisemodel.cn/models/birefnet-group/birefnet/
01.
双边参考框架的突破性创新
birefnet的核心创新在于其独特的双边参考框架(bilateral reference framework),包含定位模块(lm)与重建模块(rm),通过多层次信息融合与梯度监督,实现细节与效率的双重提升。

图1 双边参考网络(birefnet)的流程图

1)定位模块(lm):全局语义的高效捕捉
定位模块采用基于视觉transformer的编码器,提取图像的多层次特征。通过全局平均池化与自适应多尺度上下文融合(aspp模块),模型能在低分辨率下快速锁定目标区域,生成粗略预测图。这一设计显著降低了后续处理的复杂度,为高分辨率重建奠定基础。

2)重建模块(rm):双边参考的细节复原
重建模块是birefnet的核心,包含两大创新设计:
内部参考(inref):直接利用原始高分辨率图像的局部区块,避免下采样导致的细节丢失。通过自适应裁剪与解码器特征融合,确保每个重建阶段均能补充完整的高频信息。
外部参考(outref):引入梯度图作为监督信号,通过梯度敏感特征生成注意力图,引导模型聚焦于边缘与纹理复杂区域。结合形态学掩膜技术,有效抑制背景噪声干扰。

3)梯度监督与多阶段训练策略
birefnet提出梯度辅助监督机制,利用真实标签(gt)与预测梯度图的双向优化,增强模型对微弱边缘的捕捉能力。
同时,针对高分辨率数据训练成本高的问题,团队设计了多阶段监督(mss)策略,通过中间预测的逐级优化,将训练周期缩短50%,并支持区域级损失微调,显著提升收敛效率。
02.
性能全面超越现有方法
birefnet在13个主流数据集上进行了全面验证,涵盖dis、hrsod、cod等主流图像分割任务,其性能与效率均达到行业领先水平。

1)定量实验结果 (具体指标对比可以见原论文)
dis任务:在dis5k数据集上,birefnet的结构相似度指标(例如s-measure、最大e-measure,更关注全局信息) 、像素级指标(如mae,更强调细节的精确性)、基于平均值的指标(例如平均e-measure、平均f-measure,更符合实际应用中阈值化地图的要求)。均大幅领先于之前的方法。特别值得注意的是,在更贴近实际应用的指标上(如人工矫正量指标hce),birefnet的结果同样更好。
cod任务:在cod 任务中,birefnet 相比之前的最先进模型也表现出色,在三个广泛使用的 cod 基准上,s-measure指标平均提高了 5.6%。这些结果显示了birefnet 在高分辨率任务上的显著泛化能力。
sod任务:birefnet在高分辨率和低分辨率显著物体检测基准上都取得了更高的准确性。与之前的最先进方法相比,birefnet 在s-measure指标上平均提高了 2.0%。
推理效率:配备swin-l骨架网络的birefnet在单张nvidia a100 gpu上推理速度达83ms/帧,支持实时处理4k分辨率图像。

2)定性效果展示
如图2所示,birefnet在具有镂空区域及细长结构的复杂场景中展现出卓越的几何细节保持能力。在dis5k数据集的干扰场景下,模型准确排除背景干扰物,并精确完成像素级前景分割。
在伪装目标数据集cod10k中,如图3所示,birefnet成功分割出被树枝遮挡的完整昆虫主体,有效解决了传统方法在遮挡下存在的语义断裂问题。


图2 birefnet在dis5k数据集上结果的视觉展示。对于镂空与细长结构也能精细分割。

图3 在cod10k基准测试上提出的birefnet与其他先进方法的视觉比较。提供具有不同挑战性(如微小物体,被遮挡物体等)样本, 以展示birefnet在各种复杂场景的优越性。
03.
行业应用从工业检测到创意生产
birefnet的高精度与泛化能力,使其在多个领域展现出巨大潜力:

1)工业质检:微小缺陷的精准定位
在建筑裂缝检测中(图4b),birefnet可识别毫米级裂纹,精度远超基于coco数据集训练的通用模型。某建材企业通过部署birefnet,将人工巡检成本降低70%,并实现裂缝宽度量化分析。

2)影视特效:高精度对象提取
传统抠图工具依赖手动标注或粗粒度掩膜,而birefnet可直接生成发丝级分割结果(图4a)。美国某特效工作室将其集成至后期流程,单镜头处理时间缩短60%,并支持8k视频实时渲染。

3) 医学影像:复杂结构的自动化分析
在病理切片分析中,birefnet能够精确分割肿瘤边缘与微血管网络,辅助医生快速定位病灶。初步临床试验显示,其分割结果与专家标注的一致性达95%。
04.
社区影响力与第三方应用
自 2024 年3月7日项目发布以来,birefnet 已经在学术界和开发者社区引起了广泛关注。许多研究人员和开发者自发地推广和应用这一技术,并基于 birefnet 开发了一系列创新的第三方应用。
例如,一些开发者将 birefnet 集成到 comfyui 作为节点,极大地提升了前景分割抠图的效果,为后续的稳定扩散模型处理提供了有力支持(图4c-d)。

图4 潜在应用场景及基于 birefnet实现的第三方应用展示
此外,fal.ai 还为 birefnet 建立了一个在线演示平台,运行在 a6000 gpu 上,为用户提供了一个便捷的在线体验环境。该平台不仅提供了结果预测功能,还提供了 api 服务,方便用户通过 http 请求进行使用,日均处理请求超10万次(图4e)。
在社交媒体上,birefnet 也引发了热烈的讨论和广泛的传播。许多用户在 x 平台(前身为 twitter)上分享了 birefnet 与其他方法的视觉比较结果,展示了 birefnet 在高分辨率图像分割任务中的最优性能(图4f-g)。
这些比较不仅证明了 birefnet 的技术优势,也激发了更多开发者尝试和应用这一技术的兴趣。此外,一些用户还利用 birefnet 制作了动画和视频教程,进一步推动了 birefnet 在社区中的传播和应用。社媒对birefnet模型的一致好评强有力的证明了birefnet是目前最好的开源高精度图像分割方案。
05.
birefnet未来展望和机遇
birefnet 的出现为高分辨率图像分割领域带来了新的希望和机遇。其创新的双边参考机制和优化的训练策略不仅在多个基准测试中取得了优异的性能,还在实际应用中展现出了强大的潜力。
随着技术的不断发展和优化,birefnet 有望在更多领域得到应用和推广,为计算机视觉技术的发展注入新的活力。
未来,birefnet 的研究团队将继续致力于提升模型的性能和效率,探索更多的应用场景和优化策略。例如,研究团队可能会进一步优化模型的结构和训练算法,以降低模型的计算复杂度和内存占用,使其更适合在移动设备和边缘计算环境中运行。
此外,团队还在继续探索将 birefnet 与其他主流技术(如多模态、视频分割等)相结合,以进一步提升模型的性能和泛化能力。
在应用层面,birefnet 有望在医疗影像诊断、自动驾驶、工业检测等领域发挥更大的作用。例如,在医疗影像诊断中,birefnet 的高分辨率分割能力可以帮助医生更精准地识别病变区域,提高诊断的准确性和效率。
在自动驾驶领域,birefnet 可以用于道路标志和障碍物的精准检测,为自动驾驶系统的决策提供更可靠的依据。在工业检测中,birefnet 可以用于检测产品表面的缺陷和瑕疵,提高生产质量和效率。
论文地址:https://arxiv.org/pdf/2401.03407
----- end -----

关于wisemodel更多

1
欢迎持续关注和支持
2
欢迎加盟wisemodel开源社区
始智ai wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的ai开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在ai infra、后端开发,熟悉k8s、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:[email protected]
3
欢迎投稿优质内容
4
关于wisemodel开源社区
始智ai wisemodel.cn开源社区由清华校友总会ai大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的ai开源创新社区,将打造成“huggingface”之外最活跃的ai开源社区,汇聚主要ai开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设ai开源创新生态。
向上滑动查看
更多