选自 arXiv
作者:Yudong Liu等
机器之心编译
参加:魔王、思
导语:吃力构建更强壮的新式骨干网络还不如组合多个相同的骨干网络?近来,来自北京大学王选核算机研讨所和纽约州立大学石溪分校的研讨者宣布了一篇论文:集成多个相同的骨干网络能够构建愈加强壮的新式骨干网络,然后完成更好的检测功能。
在现有的 CNN 检测器中,骨干网络是特征提取的重要组件,检测器的功能很大程度上依赖于骨干网络。近来,来自北京大学王选核算机研讨所和纽约州立大学石溪分校的研讨者宣布了一篇论文:依据现有骨干网络(如 ResNet 和 ResNeXt)构建愈加强壮的新式骨干网络,然后完成更好的检测功能。
详细而言,研讨者提出一种集成多个相同骨干网络的新策略,即经过附近骨干网络之间的组合衔接(composite connection)构建一个更强壮的骨干网络——Composite Backbone Network (CBNet)。CBNet 依照阶段迭代地将前一个骨干网络的不同输出特征(即高层笼统特征)输入到下一个骨干网络的对应层级中,一向到最终一个骨干网络(Lead Backbone),然后运用 Lead Backbone 的特征图进行方针检测。
研讨标明,CBNet 能够轻松整合到当时最优的检测器,并大幅提高功能。例如,它将 FPN、Mask R-CNN 和 Cascade R-CNN 在 COCO 数据集上的 mAP 提高了 1.5%-3.0%。一起,试验成果证明,CBNet 还能够提高实例切割成果:简略地将 CBNet 集成到基线检测器 Cascade Mask R-CNN,即可完成单个模型在 COCO 数据集上的新 SOTA 成果(mAP 到达 53.3),这标明 CBNet 架构十分有用。
代码拜见:https://github.com/PKUbahuangliuhe/CBNet
方针检测使命中,骨干网络扮演了什么人物?
方针检测是核算机视觉范畴中最底子的问题之一,可用于很多应用范畴,如自动驾驶、智能视频监控、遥感等。近年来,因为深度卷积网络的蓬勃发展,方针检测完成了巨大的前进,研讨人员提出了多个强壮的检测器,如 SSD、Faster R-CNN、Retinanet、FPN、Mask R-CNN、Cascade R-CNN 等。
典型的 CNN 方针检测器一般运用骨干网络来提取底子特征,然后用于方针检测,而这些骨干网络一般是为图画分类使命规划,并在 ImageNet 数据集进步行预练习。因而,假如骨干网络能够提取更具表明性的特征,则检测器将取得更好的功能。也就是说,骨干网络越强壮,方针检测功能越好(如下表 1 所示)。因而,从 AlexNet 开端,当时最优的检测器纷繁运用深度更深、规划更大的骨干网络,例如如 VGG、ResNet、DenseNet、ResNeXt 等。
可是,虽然依据更深更大骨干网络的当时最优检测器能够取得不错的检测成果,可是它们在功能方面仍有很大的提高空间。此外,经过规划更强壮的新式骨干网络并在 ImageNet 数据集进步行预练习来取得更好的检测功能,这种做法本钱昂扬。并且,因为简直一切现有骨干网络开始的规划方针是图画分类使命,因而,直接运用它们提取方针检测根底特征或许导致次优功能。
表 1:当时最优检测器 Cascade Mask R-CNN 运用现有骨干网络和 CBNet 时,在 COCO test-dev 数据集上的成果。该表阐明,深度更深、规划更大的骨干网络能够带来更好的检测功能,而 CBNet 架构能够进一步强化现有强壮方针检测骨干网络的功能,如 ResNeXt152。
CBNet 是何方神圣?
为了处理上述问题,来自北大和纽约州立大学石溪分校的研讨者提出了一种新办法:集成多个相同骨干网络构建更强壮的方针检测骨干网络,如下图 1 所示。
集成后的骨干网络被视为一个全体,叫做 Composite Backbone Network (CBNet)。详细而言,CBNet 包含多个相同的骨干网络(最终一个骨干网络叫做 Lead Backbone,之前的叫做 Assistant Backbone),以及附近骨干网络之间的组合衔接。从左到右,Assistant Backbone 每一阶段的输出(即高档特征)作为输入的一部分,经过组合衔接流向下一个骨干网络的并行阶段。最终,结尾骨干网络(即 Lead Backbone)的特征图被用于方针检测。
明显,CBNet 提取的方针检测特征交融了多个骨干网络的高档和初级特征,然后提高检测功能。值得一提的是,CBNet 无需预练习。研讨者仅需求运用单个骨干网络的预练习模型对 CBNet 的集成骨干网络进行初始化即可,而单个骨干网络的预练习模型在今日已经是触手可得,比方 ResNet 和 ResNeXt。也就是说,比较规划一个更强壮的新式骨干网络并在 ImageNet 数据集进步行预练习,运用 CBNet 的本钱更低,也愈加高效。
图 1:CBNet 架构图示。
研讨者在 MS-COCO 基准进步行试验,将 CBNet 应用于多个当时最优方针检测器,如 FPN、Mask RCNN、Cascade R-CNN。试验成果标明,一切检测器的 mAP 都有 1.5%-3.0% 的增加,证明了 CBNet 的有用性。此外,CBNet 还提高了实例切割的成果:Triple-ResNeXt152(3 个 ResNeXt152 组成的 CBNet 架构)在 COCO 数据集上完成了最新 SOTA 成果(mAP 到达 53.3),优于之前的方针检测器。
该研讨的首要奉献包含两部分:
提出了一种构建更强壮方针检测骨干网络的新办法:集成多个相同的骨干网络,然后明显提高不同当时最优检测器的功能。
完成了单个模型在 MSCOCO 数据集上的最新 SOTA 成果——方针检测 mAP 到达 53.3。
CBNet 办法详解
CBNet 架构
CBNet 架构包含 K 个相同的骨干网络(K ≥ 2)。研讨者将 K = 2 的状况叫做 Dual-Backbone (DB),将 K=3 的状况叫做 Triple- Backbone (TB)。
如下图所示,CBNet 架构包含两种骨干网络:Lead Backbone B_K 和 Assistant Backbone B_1, B_2, ..., B_K 1。每个骨干网络包含 L 个阶段(一般 L = 5),每个阶段包含多个卷积层,其特征图的规划共同。骨干网络的第 l 阶段完成非线性改换 F^l (·)。
CBNet 架构图示。
其他组合方式
CBNet 有多种组合方式,如下图所示:
图 3:Dual-Backbone 架构(一个 Assistant Backbone 和一个 Lead Backbone)的四种组合方式。
如上所示,a)附近高档组合(Adjacent Higher-Level Composition,AHLC);b)同级组合(Same Level Composition,SLC);c)附近初级组合(Adjacent Lower-Level Composition,ALLC);d)密布高档组合(Dense Higher-Level Composition,DHLC)。蓝色框中的组合衔接表明一些简略运算,如元素级运算、缩放、1×1 卷积层和 bn 层。
试验
研讨者在 MS-COCO 基准的鸿沟框检测使命和实例切割使命进步行了试验,运用 trainval35k 数据集作为练习数据(trainval35k 数据集包含 train 的 80k 图画和 val 的 35k 子集)。研讨者在 test-dev 数据集上陈述 COCO AP 成果,以便利比照。
检测成果
表 2:在 MS-COCO test-dev 数据集上的检测成果。
上图显现了四种检测器的方针检测和实例切割成果,以展现 CBNet 的作用。Single:基线骨干网络;DB:Dual-Backbone 架构;TB:Triple-Backbone 架构。第 5-7 列展现了方针检测的成果,第 8-10 列展现了实例切割的成果。
表 3:CBNet 办法和当时最优检测器在 COCO test-dev 数据集上的方针检测功能比照。* 表明运用了多标准测验。
不同组合方式的比照
表 4:不同组合方式的比照,基线骨干网络为 FPN ResNet101。
CBNet 的加快版
CBNet 的首要缺点是:运用更多骨干网络来提取特征导致核算复杂度增大,然后减缓了基线检测器的揣度速度。如下表 6 所示,DB 将 FPN 的 AP 提高了 1.6%,但检测速度从 8.1 fps 下降到了 5.5 fps。
为了缓解该问题,研讨者提出了 CBNet 的加快版,如下表 5 所示,加快版别移除了 Assistant Backbone 的两个前期阶段。加快版能够明显提高速度(从 5.5 fps 提高到 6.9 fps),一起对检测准确率没有大的危害(从 41.0 到 40.8)。
图 5:CBNet 的加快版(K = 2)。
表 6:原始 DB 和加快版的功能比照。DB:DualBackbone。Ψ:为加快所做的修正。
CBNet 在提取根底特征方面的作用
研讨者以为 CBNet 功能优于单个方针检测骨干网络的底子原因是:比较于后者,CBNet 提取出的根底特征更具表明性。为了验证此观念,研讨者对 CBNet 和原始单个骨干网络提取的特征图进行了可视化和比照。如下图 6 所示:
图 6:CBNet (Dual-ResNet101) 和原始骨干网络 (ResNet101) 提取特征的视觉比照,基线检测器为 FPN-ResNet101。
关于每一个骨干网络,上图依据远景物体的巨细,对 Res2 和 Res5 进行可视化。咱们能够看到 CBNet 的特征图更具表明性,它的远景物体激活值更大,布景的激活值更小。
本文为机器之心编译,转载请联络本大众号取得授权。
------------------------------------------------