新智元推荐
来源:专知
整理编辑:张佳
【新智元导读】来自纽约大学、滑铁卢大学、UCLA等学者深度学习图像分割最新综述论文,对现有的深度学习图像分割研究进行梳理使其系统化,并提出6方面挑战,帮助读者更好地了解当前的研究现状和思路。可作为相关领域从业者的必备参考文献。戳右边链接上新智元小程序了解更多!
图像分割(Image Segmentation)是计算机视觉的经典问题之一,受到了广泛关注,每年在各大会议上都有大量的与之相类似的文章发表。在前深度学习时代有大量的方法提出,比如分水岭、GraphCut等。随着深度学习的兴起,大量的算法提出如R-CNN、Mask-RCNN等。
最近来自纽约大学、滑铁卢大学、UCLA等学者发布了深度学习图像分割最新综述论文Image Segmentation Using Deep Learning: A Survey>,涵盖20页pdf168篇参考文献,调研了截止2019年提出的100多种分割算法,共分为10类方法。对近几年深度学习图像分割进行了全面综述,对现有的深度学习图像分割研究进行梳理使其系统化,并提出6方面挑战,帮助读者更好地了解当前的研究现状和思路。可作为相关领域从业者的必备参考文献。
基于深度学习的二维图像分割算法的时间轴。橙色块表示语义块,绿色块表示实例块。
题目:Image Segmentation Using Deep Learning: A Survey
作者:Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, and Demetri Terzopoulos
参考链接:
https://arxiv.org/abs/2001.05566
https://uracy
Mean Pixel Accuracy (MPA)
Intersection over Union (IoU)
Mean-IoU
Precision / Recall / F1 score
Dice coefficient
基于dll的模型的定量性能
表一: PASCAL VOC测试集上分割模型的准确性
6 挑战与机遇
毫无疑问,图像分割已经从深度学习中受益良多,但仍存在一些挑战。接下来,我们将介绍一些有前景的研究方向,我们相信这将有助于进一步推进图像分割算法。
6.1 更具挑战性的数据集
为了实现图像的语义分割和实例分割,建立了多个大规模的图像数据集。然而,仍然需要更有挑战性的数据集,以及不一样的图像数据集。对于静态图像,具有大量对象和重叠对象的数据集非常有价值。这可以使训练模型更好地处理密集的对象场景,以及在真实场景中常见的对象之间的大量重叠。
随着三维图像分割尤其是医学图像分析的日益普及,对大规模三维图像数据集的需求也慢慢变得大。这些数据集比它们的低维度副本更难创建。现有的用于三维图像分割的数据集通常不够大,有些是合成的,因此更大、更具挑战性的三维图像数据集可能非常有价值。
6.2 可解释的深度模型
虽然基于dll的模型在具有挑战性的基准测试上取得了良好的性能,但是这些模型仍然存在一些问题。例如,深度模型究竟在学习什么?我们该如何解释这些模型学到的特征?什么是最小的神经结构,能够达到一定的分割精度,在一个给定的数据集?虽然能够正常的使用一些技术来可视化这些模型的学习卷积内核,但是缺乏对这些模型的底层行为/动态的具体研究。更好地理解这些模型的理论方面可以使模型朝着各种细分场景发展。
6.3 弱监督和非监督学习
弱监督学习和无监督学习正成为非常活跃的研究领域。这些技术有望成为图像分割的特别有价值的,因为收集标记样本分割问题在许多应用领域是有问题的,特别是在医学图像分析。转移学习方法是在一组大的标记样本(可能来自公共基准)上训练一个通用的图像分割模型,然后在一些特定目标应用程序的几个样本上微调该模型。自监督学习是另一个很有前途的方向,它在各个领域都很有吸引力。在自我监督学习的帮助下,图像中有许多细节可拿来训练分割模型,而训练样本要少得多。基于增强学习的模型也可能是另一个潜在的未来方向,因为它们在图像分割方面还没有正真获得足够的重视。例如,MOREL[168]提出了一种用于视频中移动目标分割的深度强化学习方法。
6.4 各种应用的实时模型
在许多应用中,准确性是最重要的因素; 然而,在一些应用中,分割模型也很重要,它可以运行在接近实时,或至少接近普通的相机帧率(至少每秒25帧)。这对于部署在无人驾驶汽车上的计算机视觉系统很有用。目前的大多数模型都远远达不到这一帧率;例如,FCN-8处理低分辨率图像大约需要100毫秒。基于扩展卷积的模型在某些特定的程度上提高了分割模型的速度,但仍有很大的改进空间。
6.5 记忆效能模型
许多现代的分割模型甚至在推理阶段都需要大量的内存。到目前为止,许多努力都是为了更好的提高这些模型的准确性,但是为了使它们适用于特定的设备,例如移动电话,网络必须简化。这能够最终靠使用更简单的模型来实现,也能够最终靠使用模型压缩技术来实现,还可以训练一个复杂的模型,然后使用知识蒸馏技术将其压缩成一个更小的、内存效率更高的网络来模拟复杂的模型。
6.6 三维点云分割
大量的工作集中在二维图像分割,但很少有涉及到三维点云分割。点云分割在三维建模、无人驾驶汽车、机器人、建筑建模等领域有着广泛的应用。处理三维无序和非结构化数据(如点云)带来了几个挑战。例如,在点云上应用CNNs和其他经典深度学习架构的最佳方式还不清楚。基于图的深度模型可能是点云分割的一个潜在探索领域,从而支持这些数据的附加工业应用。
7 结论
我们调查了最近100多种基于深度学习模型的图像分割算法,这些算法在各种图像分割任务和基准测试中都取得了令人印象深刻的成绩。我们将这些算法分为10类:CNN和FCN、RNN、R-CNN、dilated CNN、基于注意力的模型、生成型模型和对抗型模型等。我们总结了这些模型在一些流行基准上的定量性能分析,如PASCAL VOC、MS COCO、Cityscapes和ADE20k数据集。最后,我们讨论了一些开放的挑战和未来几年图像分割的潜在研究方向。
参考文献:
[1] R. Szeliski, Computer vision: algorithms and applications. Springer Science & Business Media, 2010.
[2] D. Forsyth and J. Ponce, Computer vision: a modern approach. Prentice Hall Professional Technical Reference, 2002.
[3] N. Otsu, “A threshold selection method from gray-level histograms,” IEEE transactions on systems, man, and cybernetics, vol. 9, no. 1, pp. 62–66, 1979.
[4] R. Nock and F. Nielsen, “Statistical region merging,” IEEE Transactions on pattern analysis and machine intelligence, vol. 26, no. 11, pp. 1452–1458, 2004.
[5] N. Dhanachandra, K. Manglem, and Y. J. Chanu, “Image segmentation using k-means clustering algorithm and subtractive clustering algorithm,” Procedia Computer Science, vol. 54, pp. 764–771, 2015.
[6] L. Najman and M. Schmitt, “Watershed of a continuous function,” Signal Processing, vol. 38, no. 1, pp. 99–112, 1994.
2020,新智元继续与您一起探索于你的AI新天地!AI技术干货,B站风格直播,就在新智元We站小程序!AI你,新智元祝您2020新春快乐!