图像支解

图像支解便是把图像分成若干个特定的、具有奇特实质的区域并提出感兴味目标的技能和进程。它是由图像处理到图像剖析的要害方法。现有的图像支解方法主要分以下几类:基于阈值的支解方法、基于区域的支解方法、基于边沿的支解方法以及基于特定表面的支解方法等。从数学角度来看,图像支解是将数字图像划分成互不结交的区域的进程。图像支解的进程也是一个标记进程,即把属于同一区域的像索付与相同的编号。

根源:百度百科
简介

图像支解是图像处理和盘算机视觉的热门之一。它也是图像识另外主要根底。图像支解是依据图像实质对指定区域举行标记的盘算机视觉义务,它基于某些标准将输入图像划分为众个相同的种别,简言之便是「这张图片里有什么,其图片中的位置是什么?」以便提取人们感兴味的区域。它是图像剖析和了解图像特征提取和识另外根底。

一般来说,用于图像支解的算法主要有五类:

第一种是阈值支解方法( threshold segmentation method)。阈值支解是基于区域的支解算法中最常用的支解技能之一,实质是依据必定的标准主动确定最佳阈值,并依据灰度级运用这些像本来完成聚类。

其次是区域增加细分( regional growth segmentation)。区域增加算法的基本思念是将具有相似属性的像素组合以变成区域,即,起首划分每个区域以找到种子像素举措孕育点,然后将四周邻域与相似属性兼并其区域中的像素。

第三种是边沿检测支解方法( edge detection segmentation method)。边沿检测支解算法是指应用差别区域的像素灰度或边沿的颜色不延续检测区域,以完成图像支解。

第四种是基于聚类的支解( segmentation based on clustering)。基于聚类的算法是基于事物之间的相似性举措类划分的标准,即依据样本集的内部构造将其划分为若干子类,以使相同类型的类尽可以相似、差别的类型的类尽可以不相似。

着末是基于CNN中弱监视进修的支解。它指的是为图像中的每个像素分派语义标签的题目,又称语义支解。它由三部分构成。 1)给出包罗哪些对象的图像。 2)给出一个对象的边框。 3)图像中的对象区域用部分像素标记。

[描画根源:Yuheng, S.; Hao, Y. (2017). Image Segmentation Algorithms Overview. arXiv: 1707.02051.]

开展历史

Jonathan Long, Evan Shelhamer, Trevor Darrell 2014 年末先容了运用「全卷积」收集对图像支解的义务举行端到端、像素到像素的教练方法 。这篇论文的作家提出FCN,将现有的、颠末充沛研讨的图像分类收集(如 AlexNet)举措收集的编码模块,用转置卷积层举措解码模块,将大约的特征图上采样至全区分率的支解图。FCN主要用来做pixel-wise的image segmentation预测,先用古板的CNN构造取得feature map,同时将古板的full connected转换成了对应参数的卷积层,比如古板pool5层的尺寸是7×7×512,fc6的尺寸是4096,古板的full connected weight是7×7×512×4096如许众的参数,将它转成卷积核,kernel size为7×7,input channel为512,output channel为4096,则将古板的区分带有卷积和全连接的收集转成了全卷积收集(fully convolutional network, FCN)。FCN的一个好处是输入图片尺寸大小可以恣意,不受古板收集全连接层尺寸限制,古板的方法还要用相似SPP构造来避免这个题目。FCN中为了取得pixel-wise的prediction,也要把feature map通过deconv转化到像素空间。

2015年,Olaf Ronneberger, Philipp Fischer, and Thomas Brox提出了U-Net,Unet通过发生原始教练数据的扭曲版而添加教练数据。这一步使 CNN 编码器-解码器变得更加鲁棒以抵御这些形变,并能从更少的教练图像中举行进修。当它少于 40 张图的生物医学数据集上教练时,IOU 值仍能抵达 92%。

2016年,Liang-Chieh Chen等人提出DeepLab,将 CNN 编码器-解码器和 CRF 精粹进程相联合以发生目标标签(如前文所述,作家夸张了解码器的上采样)。空虚卷积(也称扩张卷积)每一层都运用大小差别的卷积核,使每一层都能捕捉种种比例的特征。 Pascal VOC 2012 测试汇合,这个架构的平均 IOU 抵达了 70.3%。Fisher Yu和Vladlen Koltun则是提出了Dilation10, 这是一种扩张卷积的交换方法。完备流程是将扩张卷积的「前端模块」连接到实质模块上,再用 CRF-RNN 举行下一步处理。通过如许的构制,Dilation10 Pascal VOC 2012 测试集上的平均 IOU 值抵达了 75.3%。

2018年,YAIZ AKSOY等人研讨先容了语义软支解——一组与图像中语义有原理的区域相对应的层,它们差别对象之间有准确的软过渡。他们应用光谱支解角度来处理这个题目,并提出了一种图构造,其包罗图像的纹理和颜色特征以及神经收集生成的高级语义新闻。软支解是通过全心构修的拉普拉斯矩阵的特征剖析完备主动生成的。

同年,Jun Fu, Jing Liu, Haijie Tian, Zhiwei Fang, Hanqing Lu提出了一种双重当心力收集(DANet)来自顺应地将部分特征与其全部依赖联系相联合,主要捕捉丰厚的语境联系来办理场景支解题目。精细来说,他们古板的基于空虚卷积的 FCN 上添加了两种当心力模块,区分对空间维度和通道维度的语义互相联系举行修模。位置当心力模块通过所有位置的特征加权总和挑选性地聚集每个位置的特征。无论间隔遐迩,相似的特征都会互相联系。同时,通道当心力模块通过整合所有通道图中的相关特征,有挑选地夸张互相联系的通道图。他们将两个当心力模块的输出相加,以进一步改良特征外示,这有帮于取得更准确的支解结果。他们三个具有挑衅性的场景支解数据集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了当时最佳支解功用。特别是,不运用大约数据的状况下, Cityscapes 测试集的平均 IoU 分数抵达了 81.5 %。

另一方面,旷视科技提出一种称之为同一感知解析(Unified Perceptual Parsing/UPP)的新义务,请求板滞视觉系统从一张图像中识别出尽可以众的视觉看法。同时,众义务框架 UPerNet 被提出,教练计谋被开辟以进修稠浊标注(heterogeneous annotations)。旷视科技 UPP 上对 UPerNet 做了基准测试,结果外明其可有用支解大宗的图像看法。

主要事情

年份事情相关论文/Reference
2014Jonathan Long, Evan Shelhamer, Trevor Darrell 2014 年末先容了运用「全卷积」收集对图像支解的义务举行端到端、像素到像素的教练方法Long, J.; Shelhamer, E.; Darrell, T. (2014). Fully Convolutional Networks for Semantic Segmentation. CVPR.
2015Olaf Ronneberger, Philipp Fischer, and Thomas Brox提出了U-NetRonneberger, O.; Fischer, P.; Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. arXiv:1505.04597v1.
2016Liang-Chieh Chen等人提出DeepLabChen, L.-C. et al. (2016). DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. arXiv:1606.00915v2.
2016Fisher Yu和Vladlen Koltun则是提出了Dilation10Yu, F.; Koltun, V. (2016). MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS. ICLR.
2018Jun Fu, Jing Liu, Haijie Tian, Zhiwei Fang, Hanqing Lu提出了一种双重当心力收集(DANet)来自顺应地将部分特征与其全部依赖联系相联合Fu, J. et al. (2018). Dual Attention Network for Scene Segmentation. arXiv:1809.02983v2.
2018YAIZ AKSOY等人研讨先容了语义软支解AKSOY, Y. et al. (2018).  Semantic Soft Segmentation. ACM Trans. Graph. 34(4), Article 72.
2018旷视科技提出一种称之为同一感知解析(Unified Perceptual Parsing/UPP)的新义务Xiao, T. et al. (2018). Unified Perceptual Parsing for Scene Understanding. European Conference on Computer Vision (ECCV).

开展剖析

瓶颈

目前图像支解主要汇合语义支解,而目前的难点也于“语义”,外达某一语义的同一物体并不老是以相同的气候呈现,如包罗差别的颜色、纹理等,这对准确支解带来了很大的挑衅。其他的另有深度进修框架下广泛保管的题目:对教练数据的数据量请求高,教练费时等。

未来开展偏向

前文曾经提到,目前的开展偏向是语义支解,包罗从图像开展到的视频中的支解,对支解的准确度有很大的请求,以目前的模子外现来看,准确率上无疑另有晋升空间。另外,弱监视以致无监视教练来办理腾贵的数据标注题目也是一种偏向。着末,示例级别(Instance level)的图像支解也是一个热门研讨偏向。

Contributor: Yuanyuan Li

相关人物
YAIZ AKSOY
YAIZ AKSOY
Trevor Darrell
Trevor Darrell
Hanqing Lu
Hanqing Lu
简介
相关人物