人类视觉 vs 机器视觉?阿里达摩院提出基于频域信息的机器学习方

2020-06-20 09:43 出处:鏈煡 人气: 评论(0

  近日,人工智能计较机视觉范畴顶会CVPR 2020发布了本年论文的收录成效,阿里巴巴有16篇论文入选,涵盖3D视觉、方针检测以及频域图像处理等范畴的研究功效。此中,《Learning in the Frequency Domain》论文提到了操纵频域特征来进行图像推理的方式,该论文还发现较量机和人眼近似,对低频信息更敏感。论文作者之一,阿里巴巴达摩院争论手艺实验室研究型科学家Minghai Qin对该论文做了深度解读。

  近年来,基于深度神经收集的机械进修方式在较量机视觉上获得的宏大的成功。我们如今应用的主流的深度神经收集都于对空间域旌旗的处理和阐发,即图像或视频的RGB旌旗。我们知道,现有的图像视频阐发系统由多个模块构成。例如,实时图像阐明系统由图像获取(capture),图像压缩(compression),图像传输(transmission),图像解压缩(decompression),图像推理(inference)构成。

  而对于非实时的图像阐发系统,这些积存在存储中的图像已经经由压缩,是以需要颠末解压缩和图像推理的模块。以实时图像阐明系统为例,这个系统整体的机能(包孕延时,功耗,精度等)取决于个中每一个模块的机能。以往的瓶颈来自于图像推理引擎,因为个中包含了非常大规模的较量量。因为这些较量具有布局性和并行度的特征,近年来在GPU和人工智能专用芯片的匡助下,图像推理引擎的机能获得了极大的提拔。是以,图像压缩/解压缩在整个系统中的占比会越来越大。例如在Figure 1中,我们看到在一个GPU的系统中图像处理的时间占比已经大约为图像推理(inference)的两倍之多。这篇文章介绍图像阐发系统的根基构成,以及我们若何哄骗频域特征来进行图像推理,从而省略频域到空间域的转换,因为这个转换是图像压缩/解压缩上钩算量最大的步调。同时我们能够在频域选择主要的信息,进一步削减系统中模块之间的数据传输量。因为模块之间的数据带宽往往远小于模块内部的数据带宽,减小模块间的数据传输量便或许提拔整个系统的机能。

  Figure 1. Latency breakdown in a single inference

  本文的首要进献如下:第一,我们提出了一种系统方式或许在根基不改变现有的卷积神经收集(如ResNet,MobileNet等)的前提下做基于频域的机械识别。第二,因为基于频域的机械识别能够在不增加争论量的前提下,接管空间域尺寸更大的图片,是以提高了图像识其它精度。第三,我们提出了一种系统方式来区分每个频域分量对于机械进修的主要性,而且发现仅有很少部门的频域分量实际上对机械进修有进献。第四,之前基于频域的机械进修只完成了单一物体的图像分类 (single object recognition),我们首次将基于频域的机械进修扩展到了图像的物体检测(object detection)和语义/实例朋分(instance segmentation)使命中,平日物体检测和语义/实例朋分被界说为高级视觉(High level vision) 使命。

  1. 图像传输/存储/剖析系统的根基框架

  Figure 2. A framework for image transmission and analysis

  Figure 2描述了一个实时图像阐发系统的框架。图像输入(In)凡是是RGB的空间域灯号,在编码端经由RGB-to-YCbCr的转化,离散余弦变换(DCT),量化(Quantization), 以及熵编码(Entropy coding),获得压缩后用来传输的旌旗。这个旌旗传输到解码端,经由对应的熵解码(Entropy decoding),反量化(dequantization),逆离散余弦变换(IDCT),YCbCr-to-RGB转化获得原图像的重建图像。这个基于RGB空间域的重建图像作为深度神经收集的输入,经由剖析能够获得所需要的成绩。以下我们简要介绍以上这些操作,并阐发它们的争论复杂度。

  1.1 YCbCr-RGB conversion

  YCbCr(有时也称YUV)是一系列透露图像/视频的色彩空间(color space)。平日RGB color space中三个通道的灯号强相关,同时很难说明此中哪一个通道的旌旗更主要。YCbCr旌旗是RGB旌旗的一个点对点的可逆线性变换,此中Y旌旗示意的是亮度(luma)信息,而Cb和Cr示意的是色彩(chroma)信息(see Figure 3)。对于人类的视觉系统,亮度信息比色彩信息更主要,是以我们或许经由分歧的压缩方式来达到最佳的压缩机能。例如对Cb和Cr通道进行降采样。因为YCbCr和RGB旌旗的转换是point-wise linear,所以所需的较量量相对较小。

  Figure 3. Conversion from RGB to YCbCr

  1.2 Discrete cosine transform (DCT) and inverse discrete cosine transform (IDCT)

  离散余弦变换是一种二维的可逆线性变换,它将呈现出图像分歧的频率信息。以一个8x8的图像为例,它的二维DCT灯号矩阵包含了直流分量(平常是(0,0)号元素), 低频旌旗分量,以及高频旌旗分量。从Figure 4中或许看到,直流分量权衡了这个灯号整体的幅度,而两个目的上分歧的分量差别权衡了这个二维旌旗在x目的和y标的上分歧的震动频率。因为DCT(以及IDCT)是矩阵变换,而平常的图像压缩尺度使用的是8x8的DCT变换,所需的较量量据有的整个压缩系统中的大部门。

  Figure 4. Coefficients in a discrete cosine transform

  1.3 Quantization

  量化模块将旌旗由浮点数floating-point转换为整型表现。它对DCT变换后的对应位置的旌旗进行point-wise的量化。量化模块所需的计较量是以也相对较小,和矩阵的尺寸成正比。因为人类视觉系统对低频灯号比力敏感,是以量化矩阵的左上角数字相对对照小。Figure 5展示了一个量化矩阵的例子。因为量化的操作是不成逆的操作,是以量化模块是图像压缩传输系统中有损的操作。

  Figure 5. A quantization table for JPEG

  1.4 Entropy coding

  传输所需的灯号是一维灯号,而我们经由量化的旌旗是二维灯号,是以我们首先经由Zig-zag的体例将二维灯号转换为一位旌旗(see Figure 6)。因为量化矩阵中高频旌旗的量化距离较大,是以很多灯号矩阵中对应高频,也就是对应一维灯号中靠后位置的旌旗将被量化为0. 这个一维灯号经由Run length coding [2](see Figure 7)和Huffman coding [3](在视频压缩中会有更复杂的Arithmetic coding [4] 以及Context-adaptive binary arithmetic coding [5])被压缩成为用来传输/存储的旌旗. Entropy coding基于很成熟的算法和加快布局,所需的计较量也较小,和图像矩阵的尺寸称正比。因为Zig-zag转换和Entropy coding都是可逆的,是以这个模块也是无损的。

  Figure 6. A zig-zag serialization from 2D to 1D

  Figure 7. An example of run-length coding

  以上各个模块在解码端都或许用对应的逆模块(inverse module)来实现,同时这些逆模块的较量复杂度和编码端对应的模块根基一致。

  过程以上的介绍我们能够看出,在整个图像剖析系统中,除去最后的图像推理(inference)引擎,前期的压缩,传输,解压缩的瓶颈在于个中的DCT和IDCT模块,因为这两个变换是矩阵变换,而其他的操作根基都是point-wise的操作。我们知道矩阵变换的较量复杂度弘远于点变换的计较复杂度,是以假如我们或许削减,甚至省略这两个模块,将会对图像阐发系统的前半部门带来极大的机能提拔。

  2. 基于频域信息的机械进修

  在解码端,传统的图像传输系统使用IDCT将频域旌旗转换为空间域灯号的目的是为了让人类视觉系统办事的。然而,在机械进修义务中,我们能够思虑是否需要做IDCT这个对较量量需求较大的操作。若是我们能够省略IDCT的模块,我们就能够削减解码端的延时和功耗(see Figure 8)。

  Figure 8. A framework of image transmission and analysis directly from frequency domain.

  我们面临两个问题,第一,我们若何使用频域的信息来进行机械进修,即若何将重建出的DCT的灯号接入合适的深度神经收集。第二,我们若何哄骗分歧频域旌旗的主要性来节约从解码端到图像推理引擎所需的带宽(see Figure 9)

  Figure 9. A framework of image transmission and analysis from selected frequency component to reduce memory bandwidth between decoder and AI engine.

  2.1 若何行使频域的信息来进行机械进修

  首先考虑亮度通道(Y channel)。假设我们使用图像压缩尺度中默认的8x8作为块的尺寸(blocksize)。对于每一个块(block),我们会获得64个DCT的旌旗,对应了64个分歧的频率分量。若是我们原始的图像的尺寸是W x H, 那么我们将会有W/8 x H/8 个DCT灯号构成的块。每个块中沟通位置的频率分量能够构成一个尺寸为W/8 x H/8的特征图片(feature map),如许我们会发生8x8=64个feature map。同样的对于Cb和Cr通道,我们也能够各自发生64个feature map。总共发生了64x3=192个feature map,这个过程如Figure 10(a)所示。假设W=H=448, 那么现有的基于频域的feature map的尺寸为56x56x192。如今的问题是若何将这些feature map合理的输入到一个已有的DNN收集布局中,使得feature map的尺寸和已有DNN收集的尺寸吻合。

  Figure 10 (a). The data pre-processing pipeline for learning in the frequency domain

  为了便于懂得,我们以ResNet-50作为根蒂的图像分类举例。ResNet-50每每接管的图片输入尺寸为224x224. 在经由一次convolutional layer (stride=2)和pooling之后,此时收集的feature map的尺寸为56x56,和我们发生的频率灯号的feature map尺寸吻合。我们能够将192个56x56的频域feature map悉数或者部门直接接在ResNet-50的第一个Residue Block之前,从而达到不改变ResNet-50的构造而实现从频域做机械识另外目的。若是我们从192个feature map中拔取的64个,则和一个尺度的ResNet-50在这一层的feature map个数不异,则收集构造和ResNet-50达到了完全一致。这个过程如Figure10(b)所示。值得注重的是,因为我们做了8x8的DCT变换,我们实际输入的图片巨细为448x448,是尺度ResNet-50输入(224x224)的两倍。正因为我们提高了输入图片在空间域的分辨率,我们在后续的实验中能够获得更好的识别精度。

  Figure 10 (b). Connecting the pre-processed input features in thefrequency domain to ResNet-50. The three input layers (thedashed gray blocks) in a vanilla ResNet-50 are removed to admit the 56×56×64 DCT inputs.

  2.2. 频域信息主要性提取

  图像压缩理论的根本是人眼对于分歧色彩空间和频率分量有分歧的敏感度,是以我们或许对Cb,Cr通道降采样,也或许对每个DCT旌旗中高频分量设置更大的量化区间。然而,我们对于这些频率分量对于机械进修的主要性并不领会。若是我们能够忽略掉此中不主要的feature map,就或许不消将这部门数据从图像解码模块传输到图像推理引擎中,从而节流这部门可能成为瓶颈的带宽。

  我们此刻面临的问题是若何在这192个feature map中做出选择。类比人类视觉系统,在这192个feature map中,我们可否猜想Y通道和低频分量对应的feature map似乎更主要?若是是如许的话,我们若何确定Y通道中应该选择几许个feature map,而CbCr通道有该当选择几许个feature map?在这一部门,我们提出了操纵机械进修中添加gate的方式来进修每一个feature map的主要性。在练习中,不仅图像推理的DNN中的weights被练习出来,同时每一个feature map的主要性也被确定。

  FIgure 11. A gating method to select important frequency components

  Figure 11展示了行使gate来选择主要的feature map的方式。原始所有频率分量构成的feature map的尺寸为WxHxC,个中C代表了feature map的个数,正如我们前面介绍的那样,在实验中使用的是C=192. 每个feautre map经由average pooling将会生成一个1x1xC的特征向量,个中每个数值代表了对应feature map。这个特征向量经由一个fully connected layer生成一个1x1xCx2的特征向量对。每一对数字暗示这个对应的feature map是否主要,假如index为0的数字比index为1的数字更大,那么这个feature map被认为不主要,整个feature map将会被忽略而不介入后续DNN的较量;反过来说,若是index为1的数字比index为0的数字更大,那么这个feature map被认为主要,将会介入后续DNN的计较。这个操作等效于使用了一个开关(gate)来节制每一个频率信息构成的feature map是否流畅到后续的争论中。

  具体而言,因为我们使用了argmax函数来选择更大的index进而表现feature map是否被选择介入争论,我们需要一种特别的方式在练习中将gradient流传到这C个开关的掌握收集中。这种方式名为Gumbel-softmax [7]。

  因为频率分量对应的开关被选为经由的数量决意了输入DNN的数据带宽,我们把选择为经由的开关的比例作为loss function中的一项,另一项就是对应机械进修义务华夏始的loss。过程最小化loss function来实现机械进修义务精度和输入DNN数据带宽的均衡。

  如今我们拥有了选择主要的feature map的格局,我们有两种方案来削减从图像解码模块到图像推理引擎的数据带宽,这两种体例我们称之为动态(Dynamic)体例和静态(Static)体例。

  所谓动态体式,就是每一个频率分量的选择开关由当前输入的图像决意,这种方式或许自适应每一次图像推理(inference)的分歧输入。因为选择开关的收集十分简洁,我们能够将其放在图像解码模块中。如许从图像解码模块到图像推理引擎之间只需要对被选择的频率分量对应的feature map进行数据传输,能够极大的削减这两个模块之间的带宽需求(see 3rd row in Figure 12)。

  所谓静态体例,就是我们过程练习(training)获得最主要的一些频率分量。在做图像推理(inference)的时候,我们事先就确定只用这些事先确定好的频率分量对应的feature map,而不会凭据分歧的图像进行自适应选择。这种静态格局在inference的时候无需选择开关的收集。这种体式不仅或许节约图像解码模块到图像推理引擎的带宽,还能够在编码模块中忽略不主要的频率分量,进而削减图像编码的计较量,延时,以及收集传输的带宽(see 4th row in Figure 12)。值得一提的是,平日收集传输的带宽远小于机械内部组件之间的带宽。

  Figure 12. Comparisons of image transmission and analysis system

  3. 成绩展示

  为了演示基于频率分量的机械进修系统和方式,我们拔取了两个有代表性的机械进修义务,即图像分类(image classification)和实例朋分(instance segmentation).

  3.1 Image Classification

  图像分类的义务是对给定的图像进行类其余区分。我们使用ImageNet作为数据集,此中包罗大约128万张练习图像和5万张测试图像,总共1000个类别。我们使用了ResNet-50 [8] 和MobilenetV2 [9]作为DNN的收集布局。MobilenetV2使用了depth-wise convolution的体式,极大的削减了深度神经收集的计较量和收集的参数量。是以MobilenetV2有很大的潜力作为移动端图像推理引擎。

  经由我们的练习,我们获得了一张分歧频率分量主要性的Heat map。Figure 13描述了对应192个频率分量的主要性水平。我们能够看出,和我们直觉一致的是,Y通道的主要性高于Cb和Cr通道,同时低频分量的主要性高于高频分量。使用我们提出的gated方式,我们或许经由一次练习就认识该若何分派带宽资源。以Figure 13为例,我们能够使用14个Y通道,5个Cb通道5个Cr通道,共计24个feature map来做图像分类的义务,而不消将最初的192个feature map的数据都从图像解码模块传输到图像推理引擎中。如许我们的传输带宽需求降低为本来的八分之一,而推理的精度(accuracy)反而从尺度ResNet-50的75.78%晋升至77.196% (see DCT-24 in Table 14 (a) )。同样的,在MobileNetV2的实验中,我们经由拔取最主要的24个频率分量,获得的识别精度从尺度MobileNetV2的71.702%晋升至72.364% (see DCT-24 in Table 14 (b) ). 其它的效果,例如拔取64,48,12,6个频率分量的精度也显现在Table 14中。值得一提的是,按照Figure 13的展示,我们发现低频分量在识别中相对主要,是以我们也考试了使用heuristic的体式,拔取了一个上三角的区域。例如对于DCT-24,我们直觉拔取的是Y channel的[0-13],Cb和Cr channel的[0-4]编号的频率分量。这些频率分量和Figure 13中的heatmap略有分歧,可是识其它精度几乎没有区别 (See DCT-64T, DCT-48T, and DCT-24T in Table 14(a) )。这说明我们并不需要对于每个分歧的义务都测验首先获得heatmap,然后严厉的按照heatmap来拔取频率分量。我们直观上能够选择低频分量(例如这些上三角获得区域),达到和严厉按照heatmap选择沟通的精度。

  Figure 13. A heatmap of different frequency components being used in image classification tasks (a) and instance segmentation tasks (b)

(a)

(b)

  Table 14. Accuracy Comparison for image classification from RGB and DCT domain using ResNet-50 (a) and MobileNetV2 (b)

  3.2 Instance segmentation

  实例朋分(instance segmentation)连系了物体检测(object detection) 和语义朋分(semantic segmentation)的需求,它的义务是检测出图像中的每个物体对应的像素点,同时将每一个检测出的物体分类。如Figure 15所示,实例朋分义务需要检测出物体(例如,人,足球)的bounding box,还需要在这个bounding box中将属于该物体的像素标注出来。

  Figure 15. An example of instance segmentation (from selected frequency domain)

  我们使用了COCO的数据集,此中包含了约10万张练习图像和5千张测试图像。我们使用了Mask RCNN [10]作为深度神经收集布局。Mask RCNN首先会检测出物体的bounding box,然后在bounding box内部的每个像素做二分,确定其是否属于该物体。

  Table 16展示了我们在DCT频域做物体识别和实例朋分的精度对比。能够看到,从频域做这两个使命,我们能够提拔大约0.8%的精度(37.3%到38.1% 以及 34.2%到35.0%)。

(a)

(b)

  Table 16. Accuracy Comparison from RGB and DCT domain on object detection (a) and instance segmentation (b)

  以下是别的几个操纵在频域选择主要的feature map做实例朋分的visual demo。

  这一功效,一共有6名研究人员介入,他们分辨来自阿里达摩院和Arizona State University。论文的第一作者为Kai Xu,该文章的首要工作是他在阿里达摩院较量手艺实验室作为研究实习生时完成的,此外Minghai Qin, Fei Sun, Yuhao Wang和Yen-Kuang Chen 这4名作者也来自阿里达摩院争论手艺实验室,他们都是优异的华人学者,拥有海外名校博士学位,个中Yen-Kuang Chen是IEEE Fellow。



人类视觉 vs 机器视觉?阿里达摩院提出基于频域信息的机器学习方
pretty本文标签: 北京财经类院校

相关文章

评论区域 -->

Copyright © 2002-2011 幽州理财网 版权所有

渝ICP备88888888号


本网站内容来自于互联网或用户投稿,如有侵权,请联系我们删除 点击这里给我发消息