网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于自监督学习的热红外图像景深估计方法  PDF

  • 丁萌 1
  • 关松 2
  • 李帅 1
  • 于快快 2
  • 徐一鸣 1
1. 南京航空航天大学 民航学院,江苏 南京 211106; 2. 光电信息控制和安全技术重点实验室,天津 300308

中图分类号: TP29

最近更新:2023-12-20

DOI:10.11972/j.issn.1001-9014.2023.06.024

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

从热红外图像对比度低、细节信息不足等特点出发,提出了一种面向热红外图像的景深估计方法。首先,设计了一种红外特征聚合模块,提高了对目标物边缘和小目标的全方位深度信息获取能力;其次,在特征融合模块中引入了通道注意力机制,进一步融合通道间的交互信息;在此基础上,建立了一种深度估计网络,实现热红外图像的像素级景深估计。消融实验与对比实验的结果表明,该方法在热红外图像像素级景深估计中性能优于其他代表性方法。

引言

从二维图像中估计场景的深度信息是计算机视觉中的一个经典问

1,传统方法多以多目及多视图匹配的方式获取场景的深度信息,然而这类算法首先需要完成从图像中进行特征提取与匹配等一系列预处2-3,且难以获得稠密的和输入图像实现像素级匹配的深度数据。近年来,随着深度学习算法的发展,利用卷积神经网络强大的拟合能力,建立基于深度学习的单视图景深估计方法成为计算机视觉领域的一个研究热4。相比于传统方法,这类方法的主要优势体现5:第一、尽管需要大规模的训练,但是在实际使用过程中,仅需提供单幅图像即可恢复出其对应的深度信息;第二、恢复出的深度信息与输入的二维图像可以实现像素级匹配,无需再进行深度图与原始图像之间的配准,降低了后续任务的难度。

根据是否需要深度标签及深度标签的稠密度,现有的基于深度学习的单视图景深估计方法总体上可以分为三

6:第一、监督学习的方法,该方法需要稠密的像素级的深度标签,由于现有的景深测量设备很难获取和图像分辨率相匹配的深度标签,所以这类算法监督信息的获取难度和成本极7-8;第二、半监督学习的方法,该类方法主要使用稀疏的深度标签对图像中的部分像素进行标注,虽然其对深度传感器的分辨率要求大大降低,但是其存在的最大问题是需要先对深度数据和图像进行高精度配准,其工作量较大,也存在着一定的误9-10;第三、自监督方法,相比于前两类方法,该类方法无需深度标签,在训练过程中利用多视图之间的空间几何关系去建立监督信息,实现了自监督的像素级深度估计,这类空间几何关系主要包11-12:基于左/右视图的方法和基于前/后视图的方法。由于自监督方法在训练样本的获取上较为便利,因此其已成为当前基于深度学习的景深估计算法的主要研究方向。

2016年,Garg等人创造性地提出了一种利用左/右视图的自监督景深估计方法,根据预测的视差值和左视图重建右视图,其中使用光度误差作为网络模型的监督信息,但该方法最大的缺陷是网络模型优化迭代困

13。在此基础上,Godard等人利用左/右视图间的几何约束关系,提出了利用左右视差之间的一致性损失作为约束项,来优化网络参数,提高准确率和鲁棒14。Tosi等人以左/右视图作为训练输入,通过两个网络的优化来预测最终的视15,首先通过一个网络得到初始特征和初始视差图,然后通过一个额外的残差网络对前一个网络得到的初始特征进行修正,获得一个对初始视差图的补偿,从而完成对深度信息的预测。相比于Godard的单一网络,该方法通过增加一个网络对特征进行修正,提高了景深估计的精度。这类基于左/右视图的方法,要求在网络训练时需要标定好位姿关系的双目图像作为输入,训练样本的采集对设备有着较为严苛的要求。为此,从简化训练样本获取方式的角度,构建新的自监督景深信息成为研究的重点。Zhou等人发现多视图之间的相机位姿与深度值存在紧密联16,在训练时将深度估计网络和相机位姿估计网络联合起来,使用不同位姿之间的视图重投影关系作为监督信号,就可以使用图像序列完成景深信息的估计。但是这种重投影关系的成立条件十分严苛,其中最重要的一点就是要求场景中都是刚性物体,即和相机之间存在着一致的相对运动关系。为了解决这一问题,学者们分别提出了不同的解决方案,如将光流估计和立体匹配结合起17,在联合学习过程中引入几何约18。在上述研究的基础上,为了解决多视图相对位姿估计和非刚性及遮挡物体带来的误差,Godard等人提出了一种全新的基于自监督学习的单目深度估计的方法Monodepth219,该方法分别使用了深度预测网络和位姿变换预测网络分别对当前帧的深度图和连续帧之间的相对位姿进行估计,通过重投影重构当前图像并计算误差构建自监督信息,其对基于深度学习的无监督景深估计研究的主要贡献来自于三个方面:首先,采用了逐像素计算最小重投影损失的方法,解决了单目视频序列中存在的帧间遮挡问题;其次,采用了多尺度采样方法,使模型尽量在较高的输入分辨率下计算重投影误差,降低了深度图中不合理的纹理特性;最后,使用固定像素自动掩膜的方式过滤掉图像序列中没有变化的像素点,避免深度图中出现异常空洞。综上所述,当前基于深度学习的景深估计方法主要是采用自监督模式,将不同视图之间的几何约束关系作为监督信息,实现对景深信息的恢复。

近年来,热红外成像技术快速发展,该技术通过捕获目标发出的热辐射,经过光电转换后将其转换成图像,避免了光照条件的限制,在一定程度上弥补了可见光图像在低能见度条件下不能使用的不足,目前已经被广泛用于安防监控、设备故障诊断、人体医学影像检查等民用领域以及夜视观察、精确制导等军用领

20-22。但是,相比于可见光图像,热红外图像存在着对比度低、分辨率低、目标细节信息缺失等一系列的不足。现有的基于深度学习的景深估计方法基本都是针对可见光图像的,将其直接应用于红外图像,很难有效提取红外图像的特23。比如,尽管Monodepth2用于单目可见光图像深度估计时具有良好的表现,但由于红外图像有效特征的不足,导致了直接利用该方法进行红外图像的深度估计误差较大,生成的深度图质量也较低,因此亟待提出一种能够有效克服红外图像局限性的深度估计方法。当前,展开面向红外图像的深度学习景深估计方法研究的成果鲜有报道。为此,本文以Monodepth2为基本框架,针对红外图像的特点展开针对性改进,建立了一种性能明显优于Monodepth2的景深估计方法。本文所提出的方法以Monodepth2为基础框架,面向红外图像的特点,设计了新的编解码器结构间的跳连接方式,并引入了通道注意力机制,针对边缘模糊的场景目标以及小目标特征的获取,提高了红外特征的表达能力和图像深度估计性能,并通过实验证明了该方法对于红外图像的优势。本文的主要贡献如下:(1)设计了新的特征聚合模块,将深度估计网络编解码器间的跳连接方式改成了包含上采样等操作的密集跳连接方式,加入了中间节点对不同尺度的特征图进行融合,提高景深估计网络对场景目标物体边缘信息和小物体信息的获取能力;(2)改进了特征融合模块,引入了通道注意力机制 (Efficient Channel Attention Net, ECANet),根据特征通道的重要性对不同通道进行权重分配,进而提高神经网络重要通道对输出结果的影响比重,ECANet能够有效地捕获通道间的交互关系,避免了降维给通道注意力预测带来的负面影响;(3)在新的特征聚合和融合模块的基础上,建立了一种面向热红外图像的深度估计网络。消融实验与对比实验结果充分证明了本文提出的深度估计网络模型针对热红外图像具有更好的性能。

1 本文方法

本文提出的基于红外图像序列的景深估计方法,根据红外图像存在有效特征不足的特点,针对Monodepth2中的景深估计网络进行了改进,在多层特征图提取的基础上,建立了自底向上的特征聚合模块,通过引入通道注意力机制ECANet改进了特征融合模块,提高网络的特征提取能力和红外图像深度估计性能。

1.1 基于序列图像的自监督景深估计基本原理

自监督信息的实质是根据相机成像和立体几何投影原理,即同一视频序列的相邻两帧之间存在严格的约束关系,利用这种约束关系即可构建自监督信息。不失一般地假设世界坐标系为前一帧图像所在相机位置的机体坐标系,空间点P在第一位置的相机机体坐标系的位置为(X1Y1Z1),则后一帧图像所在相机位置的机体坐标系为(X2Y2Z2),根据两个相机坐标系之间的转换关系,可得:

X2Y2Z21=RT01×31X1Y1Z11 , (1)

其中,RR3×3为两个相机位置之间的姿态转移矩阵,TR3为其位置转移向量,根据小孔成像原理与摄像机内参数矩阵KR3×3,空间点P在前一帧和后一帧像素坐标下的位置分别为(u1v1)、(u2v2),则(u1v1)和(X1Y1Z1),(u2v2)和(X2Y2Z2)的关系可表示为:

Z1u1v11=K03×1X1Y1Z11Z2u2v21=K03×1X2Y2Z21 , (2)

其中,03×1=[0, 0, 0T,根据式(1)和(2),可得:

Z2u2v21=K03×1RT01×31X1Y1Z11 . (3)

且根据式(2)可得,

X1Y1Z1=Z1K-1u1v11 . (4)

式(3)进一步可得,

Z2u2v21=KRX1Y1Z1+KT . (5)

因此,由式(4)和(5)可得,

Z2u2v21=Z1KRK-1u1v11+KT . (6)

式(6)即为重投影公式,从式(6)可知,(u2v2)和Z2可以表示为KRTZ1的函数。因此,在已知摄像机内参数矩阵Kt-1时刻到t时刻的摄像机位姿转移矩阵(RT)和前一个时刻的像素点(ut-1vt-1)及其深度值Zt-1,就可以重建当前时刻的像素点(utvt)。利用t时刻实际的像素点作为监督信息,和根据前一时刻t-1重建的像素点进行对比,即可建立一种自监督学习框架。

1.2 基于序列图像的自监督景深估计网络架构

如上文所述,基于序列图像的自监督学习框架需要解决两个问题,分别为六自由度位姿参数RT的估计,和像素级深度Z1的估计。因此,基于序列图像的自监督单目深度估计方法涉及到了多任务联合训练,需要分别训练深度估计网络和位姿估计网络,基本结构图如下图1所示。本文方法是建立在Monodepth2基础上,因此其位姿估计网络与Monodepth2中的相关部分完全相同,因此在此将不再进行赘述,下文主要针对深度估计网络进行研究。

图1  基于序列红外图像的景深估计网络架构

Fig. 1  The framework of depth estimation using thermal infrared image sequences

在进行网络训练过程中,本文利用原图It和由网络重建的图像I^t间的差异构建损失函数,该损失函数被称为重投影损失,该损失函数分为两个部分:L1损失和用于描述两幅图像的亮度相似性和对比度相似性的结构相似性度量(Structural Similarity Index Measurement, SSIM

24。损失函数L定义如下:

L=1-αL1It,I^t+α1-SSIMIt,I^tL1It,I^t=i=1numIt(ui,vi)-I^t(ui,vi)SSIMIt,I^t=2μtμ^t+c1μt2+μ^t2+c12σtσ^t+c2σt2+σ^t2+c2 , (7)

其中,It(ui,vi)I^t(ui,vi)分别表示原图和重建图中(ui, vi)像素的亮度值,num表示图像像素数,μtμ^t分别表示原图It和重建图像I^t间亮度的平均值,σtσ^t分别表示两张图像亮度的标准差,c1c2为防止分母为零而设置的常数。

1.3 景深估计网络结构

深度估计网络为了实现像素级景深估计,其基本构型均为编解码器(Encoder-Decoder)结构,编码器就是一个特征提取模块,提取出输入图像的深度特征信息,再由解码器通过对特征信息的融合将其转化为深度图。最早的编解码结构使用全卷积网络(Fully Convolutional Networks, FCN

25,其通过对输入图像进行多次卷积和下采样操作之后,直接将低维特征反卷积并和前序下采样相同维度的特征进行通道维度上的连接(Concatenation),从而实现特征融合。然而这种融合方式缺少输入图像的浅层细节特征,导致得到的深度图细节信息缺失,如边缘等不清晰,进而影响像素级深度估计的精度。由于本文研究对象为单目红外图像,相比于可见光图像,红外图像本身有着对比度低、色彩单一、特征信息不足等缺点,为了更好地提取、聚合及融合红外图像的不同尺度信息,本文提出了一种深度估计网络,如图2所示。该网络主要由三个部分组成:特征提取模块、特征聚合模块和特征融合模块。

图2  本文的深度估计网络(Conv下方的数字表示卷积核的数量)

Fig. 2  The depth estimation network of this paper ( The number below Conv indicates the number of convolutional kernels)

1.3.1 特征提取

在特征提取部分,由于输入的是红外图像,因此设网络的输入为IRm×n×1图2m=640, n=320),通过特征提取模块,得到五个不同分辨率的特征图{F1F2F3F4F5},这五个特征图的维度分别为m/2×n/2×64, m/2×n/2×64, m/4×n/4×128, m/8×n/8×256, m/16×n/16×512。高分辨率的浅层特征图表征了图像的细节特征,低分辨率的深层特征图表示了图像的语义特征。

五层特征提取模块(图2中左侧的黄色实线框)共包括三种不同类型的特征提取方法。在第一层特征提取过程中,输入图像通过一个卷积层(图2中的Conv表示卷积操作)得到m/2×n/2×64的特征图F1;在此基础上利用2×2的最大池化(Max pooling)得到第二层特征提取块的输入F21Rm/4×n/4×64,第二层特征提取块由两个部分组成,第一部分中特征图首先经过两个卷积层得到F22Rm/4×n/4×64,由于F21F22维度相同,将这两个张量的对应元素相加(用表示)得到张量F23,即F23=F21F22,这一操作进一步将第一层特征图中的特征进行了强化,上述操作过程重复一次,得到了第二层特征层的输出F2Rm/4×n/4×64F2直接作为第三个特征提取块的输入,在第三个特征提取块中F2首先经过两个卷积层,由于第一个卷积层的步长(Stride)为2,因此经过两个卷积层得到输出F31Rm/8×n/8×128,同时将F2经过一个卷积层得到F32Rm/8×n/8×128,将F31F32的对应元素相加得到F33F33再经过两个卷积层得到F34,将F33F34的对应元素相加得到第三个卷积层的输出F3Rm/8×n/8×128;第四层与第五层的流程与第三层的方式完全相同,仅仅是卷积核的数量翻倍,分辨率减半,最终得到第四、五层的特征图分别为F4Rm/16×n/16×256F5Rm/32×n/32×512。综上,输入红外图像经过五层特征提取模块,共得到五个特征图。

1.3.2 特征聚合

在Monodepth2中,直接使用跳连接(Skip Connect)实现了不同特征图之间的融

26,保留了浅层特征图中的细节信息。但是,如果能够在特征融合前,将深层的语义信息自底向上聚合到浅层特征图中去,将会更好地提升特征图的融合。为此,本文引入自底向上的特征聚合模27,具体过程如下:首先,对第四层特征图F4进行上采样(Upsampling),将其维度从m/16×n/16×256变为m/8×n/8×256,将上采样后的特征图与第三层特征图沿着通道维连接(Concatenation),得到一个m/8×n/8×(256+128)的张量,将这个张量经过一个卷积层得到了聚合后的特征A31,其维度等于F3的维度,从图2中可见A31聚合了特征图F5F4F3。针对第二层特征图F2,得到了两个聚合后的特征图A21A22,它们的维度等于F2的维度,分别聚合了F3F2,以及F2A21A31;针对第一层特征图,设计了三个聚合节点得到三个聚合后的特征A11A12A13,它们的维度等于F1的维度。六个聚合后的特征图计算过程如下式所示,其中Conv是指卷积操作,Concat表示特征图通道维连接,Upsampl表示双倍上采样操作。

Ai1=Conv(Concat(Upsampl(Fi+1),Fi)),i=1,2,3Ai2=Conv(Concat(Upsampl(Ai+11),Ai1,Fi)),i=1,2A13=Conv(Concat(Upsampl(A22),A11,A12,F1)) . (8)

1.3.3 特征融合

特征融合模块以特征提取模块得到的五个特征图{F1F2F3F4F5}和特征聚合模块得到的三层聚合特征{A11A12A13},{A21A22}和{A31}为输入,自下而上得到六个融合后的特征图{C0C1C2C3C4C5},其计算方法如下式(9)所述,其中ECA是指注意力机制ECANet。

C5=Conv(ECA(F5))C4=Conv(ECA(Concat(F4,Upsampl(C5)))C3=Conv(ECA(Concat(F3,A31,Upsampl(C4)))C2=Conv(ECA(Concat(F2,A23,A22,Upsampl(C3)))C1=Conv(ECA(Concat(F1,A13,A12,A11,Upsampl(C2)))C0=Conv(ECA(C1)) . (9)

近年来,人们发现将通道注意力引入卷积块能够明显改善卷积神经网络(Convolutional Neural Network, CNN)性能,具有巨大的潜力。CNN中广泛使用的SENet注意力机制通过学习每个卷积块的通道注意力就能使各种CNN网络模型性能大大提升。SENet主要分为两个部分,压缩(聚合特征)和激励(校准特征)。SENet虽然有着较高的精度,但是会使模型变得十分复杂,从而导致计算负担巨大,计算成本也显著上身;除此之外,由于SENet中采取了降维操作,对通道注意力的预测会产生负面影响,并且效率低下,所以本文采用ECANet注意力机制提高融合特征的表达能力。和SENet相

28,ECANet摒弃了降维操29,并且能够有效地捕获通道间的交互关系,因此避免了降维给通道注意力预测带来的负面影响。ECANet的主要网络结构如图3所示,首先对输入F=[f1f2,…, fsRm×n×s每一个通道分别进行全局平均池化,得到向量z=[z1,z2,...,zs]

zi=1m×nh=1mw=1nfi(h,w) , (10)

其中,fiRm×n为第i个通道的特征图。在此基础上,ECANet考虑每个通道及其邻近k个通道来获取跨通道交互信息,通过卷积核大小为k的快速一维卷积来实现通道之间的信息交互。卷积核大小k表示有k个相邻通道参与一个通道的注意力预测,即局部跨通道交互的覆盖率,它的数量直接关系到了ECANet模块的计算效率和复杂度。一维卷积的结果在经过Sigmoid函数后输出通道注意力权重w=[w1,w2,...,ws],将权重向量的元素与原始特征图对应通道相乘,最终得到新的特征图ciRm×n用于后续深度估计。

ci=wifi , (11)

图3  ECANet通道注意力模块结构

Fig. 3  The structure of ECANet

k的值根据特征向量的通道数量s确定:

k=ϕ(s)=log2(s)γ+bγodd , (12)

其中,|•|odd表示取离括号内参数最近的奇数,γ=2,b=1。

综上所述,本文提出的面向红外图像景深估计的网络,在编解码器之间采取了特征提取能力更强的密集跳连接方式进行级联,实现特征信息的多尺度融合,提高了网路特征提取能力。同时,改进后的方法在解码器部分接入了通道注意力机制ECANet,进一步提升了特征表达与融合能力。

2 实验与分析

2.1 数据集与训练参数设置

实验使用的数据集为FLIR红外数据集(https:// www.flir.com/oem/adas/adas-dataset-form,采用FLIR-Tau2热红外相机))和自行拍摄的红外数据集(采用FLIR-A35热红外相机采集),两种数据集中的红外图像数据均是动态背景下的车载图像,由若干个连续的视频序列组成,一共11521张图像。其中,训练集9 677张,测试集1 844张。表1为热红外相机相关参数。表2为深度估计网络训练所设置的主要参数,三个实验使用的数据集以及训练参数都保持了严格的一致性。

表1  热红外相机相关参数
Table 1  Related parameters of thermal infrared cameras
参数FLIR-Tau2FLIR-A35
图像分辨率 640×512 320×256
相机参数

HFOV 45°

VFOV 37°

13 mm f/1.0

HFOV 48°

VFOV 39°

9 mm f/1.0

相机内参数矩阵 0.66900.5000.8280.5000100001 0.640300.5000.80030.5000100001
图像采样率 30 Hz 30 Hz
表2  训练参数
Table 2  Training parameters
参数数值
ResNet层数 18
学习率 0.000 1
迭代次数 20

2.2 实验结果分析

在对实验结果进行分析过程中,将从定性和定量两个方面展开对比分析。定性分析主要是通过计算得到的深度图对三种网络模型的结果进行比较;定量分析主要是使用带有真实目标物深度的红外图像进行测试,计算出目标物真实值与利用深度图所预测出的目标物深度值的误差率并进行比较。

2.2.1 定性分析

实验中使用的测试图像包括FLIR数据集中的图像和使用FLIR A35型号热成像仪在实际道路上拍摄的红外图像。用于对比的方法主要是:(1)Monodepth2方法,该方法是本文所提出方法的基准方法(Baseline);(2)HR-Depth方

30,该方法使用SENet注意力机制,其结果与本文方法的结果对比在一定程度上反映ECANet的作用。图4中第一列的五个测试图像来自于FLIR数据集,第二列的五张深度图是利用Monodepth2方法得到的景深估计的结果,第三列是利用HR-Depth得到的结果,第四列是本文方法得到的结果。如图4前三行蓝色框所示,本文提出的方法对类似于柱体和树干这样的细长目标物,在其深度图中边缘细节清晰完整,深度估计的准确性明显高于前两种方法。在五个测试样本中,对于汽车这样的目标物,本文提出的方法得到的深度图中,其边缘及区域深度信息较前两种方法也更加显著。对于第四个测试样本中的自行车,本文提出的方法得到的轮廓较其他两种方法得到的深度图更为清晰。此外,从图4的深度估计结果可见,本文的方法对不同尺度、不同长宽比的目标物均有较好的深度估计能力。

图4  FLIR数据集测试样本与使用不同方法得到的深度图

Fig. 4  Test images from the FLIR dataset and corresponding depth maps

为了验证该方法的泛化能力,我们利用FLIR A35热成像仪获取和训练数据集不相关的场景图像进行测试。由于FLIR A35热成像仪提供的图像分辨率为320×256 pixels,因此在进行深度估计前,利用双线性插值将测试图像的分辨率变为640×512 pixels。图5是FLIR A35热成像仪拍摄的五个测试样本得到的深度估计的结果。从图5最后一列可以看出,本文所设计的景深估计网络针对不同场景具有较强的泛化能力,可以将FLIR数据集上的训练结果泛化到其他场景红外图像中。同时,对比图5的第2、3和4列,可以发现本文提出方法所得到的深度估计的结果边缘清晰,目标物内部颜色均匀,故其得到的深度估计结果优于其他两种方法,这和图4中得到的定性对比的结论具有一致性。

图 5  FLIR A35摄像机拍摄的测试样本与使用不同方法得到的深度图

Fig. 5  Test images from the FLIR A35 TIR camera and corresponding depth maps

根据图4图5中的实验结果可以表明,虽然三种方法都是建立在monodepth2框架基础上,但是本文的方法得到的深度估计的结果最好,具体表现在:(1)本文方法生成的深度图内目标轮廓更加明显;(2)本文方法生成的深度图中目标与目标之间的深度区分度较明显;(3)本文方法生成的深度图中各目标的颜色更均匀,说明深度估计结果在同一目标上具有连续性,更加符合目标物各部分之间的实际景深关系。

2.2.2 定量分析

在这一节中,使用的测试图片为FLIR A35拍摄的红外图像,在拍摄前使用激光测距仪测量好场景中的特定目标到相机的真实距离作为基准值,通过比较真实距离和网络估计的距离并引入深度估计的误差率作为评价指标进行量化对比。误差率E定义为:

E=1Ni=1NDi-Di*Di×100% , (13)

其中,N为测试图像总数,Di为场景目标由激光测距仪得到的真实深度,Di*为场景目标的估计深度。作为标准值的场景目标真实深度是通过激光测距仪测量目标平面区域的深度值的平均值所获取。定量对比中共设置了60个目标,并利用激光测距仪确定了其真实深度值,随机分布在区间10~25m内。为了确保标准值的准确性,所选取的目标区域所占整体图像区域的比例均大于1%。在相同测试条件下,使用三种不同深度估计网络对目标进行深度估计并得到估计深度值,进而计算出不同目标距离值,并与各目标真实距离进行比较。图6是一组示例,图6(a)为利用激光测距仪得到的车辆尾部到相机的距离23.02米,根据三种方法得到的深度图,估计出的目标尾部到相机的距离分别为:本文提出的方法得到的结果为24.76米(误差率E=7.56%),HR-depth方法得到的结果为21.17米(误差率E=8.04%),Monodepth2方法得到的结果为20.79米(误差率E=9.69%)。针对全部60个测试目标,得到的距离估计的平均误差率如表3所示。

图6  输入图像与距离估计结果,(a) 原图与真实值,(b) 本文方法得到的结果,(c) HR-Depth得到的结果,(d) Monodepth2得到的结果

Fig. 6  Input image and distance estimation results, (a) the input image and the ground truth, (b) the result of distance estimation by the proposed method, (c) the result of distance estimation by HR-Depth, (d) the result of distance estimation by Monodepth2

表3  不同网络的深度估计误差率
Table 3  Error Rates of depth estimation for different networks
方法ProposedHR-Depthmonodepth2
E 19.58% 20.09% 21.68%

表3可以看出,本文提出的改进深度估计网络的误差率最小,HR-Depth次之,Monodepth2最大。由于在计算误差时只考虑了目标中心点的深度值而忽略了其他像素点间的深度误差,导致不同网络间的深度误差率区别不明显,但是依然能看出本文方法的深度估计性能相较于前两者更具有优势。此外,将得到的距离估计的误差率按4个误差区间统计,即误差率分别为<10%、<20%、<30%和>30%,表4统计了三种网络的深度估计误差在不同区间内的占比,即处于该误差区间内测试结果的数量相对于测试样本总数的占比。误差分布区间在一定程度上反映了误差率的分布情况,当多数测试目标的误差率处于较小误差区间时,就可以认为误差率整体偏小,深度估计的精确度更高,反之误差率越大,精确度越差。由表4可以看出,本文方法的测试误差率整体上趋向于更小区间。

表4  不同网络误差分布区间占比(%)
Table 4  Proportions of different network error distribution intervals (%)
方法E
<10%<20%<30%>30%
Proposed 41.67% 66.67% 90.00% 10.00%
HR-Depth 36.67% 63.33% 86.67% 13.33%
monodepth2 25.00% 58.33% 85.00% 15.00%

3 结论

由于红外图像本身具有对比度低、分辨率低、目标细节信息不足等缺点,本文构建了一种针对单幅红外图像的自监督深度估计方法。该网络由特征提取模块、特征聚合模块和特征融合模块三个部分组成。首先,设计了一种特征聚合模块,提高景深估计网络对场景目标物体边缘信息和小物体信息的获取能力;其次,在特征融合模块中引入了通道注意力机制,有效获取通道间的交互关系;在此基础上,建立了一种面向热红外图像的深度估计网络。在实验部分,对三种网络模型设置了完全相同的训练集、训练参数和训练环境,在此基础上进行定性和定量两种对比实验。定性结果显示,本文提出的方法生成的深度图像总体质量最好,具体体现在改进网络模型生成的深度图内目标轮廓更加明显、目标与目标之间的区分度较明显。对于定量结果,实验将60个目标的真实深度与三种方法的估计深度进行比较,求出误差率,进而对模型的性能进行比较和判断。最终结果显示,对于整个测试数据集,本文提出的网络模型深度估计的平均误差率最小,整体准确度最高。

References

1

Huang JWang CLiu Yet al. The progress of monocular depth estimation technology[J]. Journal of Image and Graphics20192412):2081-2097. [百度学术] 

黄军王聪刘越. 单目深度估计技术进展综述[J]. 中国图象图形学报20192412):2081-2097. 10.11834/jig.190455 [百度学术] 

2

Jia DZhu N DYang N Het al. Image matching methods[J]. Journal of Image and Graphics2019245): 677-699. [百度学术] 

贾迪朱宁丹杨宁华. 图像匹配方法研究综述[J]. 中国图象图形学报2019245): 677-699. [百度学术] 

3

Dong XGarratt A M AAnavatti G Set al. Towards Real-Time Monocular Depth Estimation for Robotics: A Survey[J]. IEEE Transactions on Intelligent Transportation Systems20222310):16940-16961. [百度学术] 

4

Liu YJiang JSun Jet al. A survey of depth estimation based on computer vision[C]//Proceedings of the IEEE 5th international conference on data science in cyberspace27-30 July 2020, Hong KongChina, USAIEEE, pp. 135-141. [百度学术] 

5

Ming YMeng XFan Cet al. Deep learning for monocular depth estimation: A review[J]. Neurocomputing202143814-33. [百度学术] 

6

Masoumian ARashwan H ACristiano Jet al. Monocular Depth Estimation Using Deep Learning: A Review[J]. Sensors20222214):5353. [百度学术] 

7

Qi XLiao RLiu Zet al. Geonet: Geometric neural network for joint depth and surface normal estimation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern RecognitionSalt Lake City, UT, USA18-23 June 2018USAIEEE, pp. 283-291. [百度学术] 

8

Ummenhofer BZhou HUhrig Jet al. Demon: Depth and motion network for learning monocular stereo[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern RecognitionHonolulu, HI, USA21-26 July 2017USAIEEE, pp. 5038-5047. [百度学术] 

9

Luo YRen JLin Met al. Single view stereo matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern RecognitionSalt Lake City, UT, USA18-23 June 2018USAIEEE, pp. 155-163. [百度学术] 

10

Xie JGirshick RFarhadi A. Deep3d: Fully automatic 2d-to-3d video conversion with deep convolutional neural networks[C]//European Conference on Computer VisionAmsterdam, The Netherlands, October 11-14, 2016GermanySpringer, pp. 842-857. [百度学术] 

11

Zhan HGarg RWeerasekera C Set al. Unsupervised learning of monocular depth estimation and visual odometry with deep feature reconstruction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern RecognitionSalt Lake City, UT, USA18-23 June 2018USAIEEE, pp. 340349. [百度学术] 

12

Ding MJiang X Y. Scene Depth Estimation Based on Monocular Vision in Advanced Driving Assistance System[J]. Acta Optica Sinica20204017):1715001-1-1715001-9.丁萌, 姜欣言. 先进驾驶辅助系统中基于单目视觉的场景深度估计方法[J]. 光学学报,2020, 4017):1715001-1-1715001-9. [百度学术] 

13

Garg RBg V KCarneiro Get al. Unsupervised cnn for single view depth estimation: Geometry to the rescue[C]// Proceedings of the European Conference on Computer VisionAmsterdam, The Netherlands11-14 October 2016GermanySpringer, pp. 740-756. [百度学术] 

14

Godard CMac Aodha OBrostow G J. Unsupervised monocular depth estimation with left-right consistency[C]// Proceedings of the IEEE conference on computer vision and pattern recognitionHonolulu, HI, USAJuly 21-26 2017USAIEEE, pp. 270-279. [百度学术] 

15

Tosi FAleotti FPoggi Met al. Learning monocular depth estimation infusing traditional stereo knowledge[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern RecognitionLong Beach, CA, USAJune 15-20 2019USAIEEE, pp. 9799-9809. [百度学术] 

16

Zhou TBrown MSnavely Net al. Unsupervised learning of depth and ego-motion from video[C]//Proceedings of the IEEE conference on computer vision and pattern recognitionHonolulu, HI, USAJuly 21-26 2017USAIEEE, pp. 1851-1858. [百度学术] 

17

Lai H YTsai Y HChiu W C. Bridging stereo matching and optical flow via spatiotemporal correspondence[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern RecognitionLong Beach, CA, USAJune 15-20 2019USAIEEE, pp. 1890-1899. [百度学术] 

18

Zou YLuo ZHuang J B. Df-net: Unsupervised joint learning of depth and flow using cross-task consistency[C]// Proceedings of the European conference on computer vision (ECCV)Munich, Germany, Sep 8-142018GermanySpringer, pp. 36-53. [百度学术] 

19

Godard CMac Aodha OFirman Met al. Digging into self-supervised monocular depth estimation[C]// Proceedings of the IEEE/CVF International Conference on Computer VisionSeoul, Korea, Oct. 27-Nov. 2, 2019, USA:IEEE, pp. 3828-3838. [百度学术] 

20

Li X GCao M TLi Bet al. GPNet: Lightweight infrared image target detection algorithm[J]. Journal of Infrared and Millimeter Waves2022416):1092-1101. [百度学术] 

李现国曹明腾李滨. 2GPNet:轻量型红外图像目标检测算法[J]. 红外与毫米波学报2022416):1092-1101. [百度学术] 

21

Ding MChen W-HCao Y F. Thermal Infrared Single-Pedestrian Tracking for Advanced Driver Assistance System[J] IEEE Transactions on Intelligent Vehicles, online, 2022. DOI: 10.1109/TIV.2022.3140344. [百度学术] 

22

He YDeng BWang Het al. Infrared machine vision and infrared thermography with deep learning: A review[J]. Infrared physics & technology116103754), 2021. [百度学术] 

23

Li XDing MWei D Het al. Depth estimation method based on monocular infrared image in VDAS[J]. Systems Engineering and Electronics2021435):1210-1217. [百度学术] 

李旭丁萌魏东辉. VDAS中基于单目红外图像的深度估计方法[J]. 系统工程与电子技术2021435):1210-1217. 10.12305/j.issn.1001-506X.2021.05.07 [百度学术] 

24

Wang ZBovik A CSheikh H Ret al. Image Quality Assessment: From Error Visibility to Structural Similarity[J]. IEEE Transactions on Image Processing2004134): 600-612. [百度学术] 

25

Long JShelhamer EDarrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognitionBoston, MA, USA, June 7-12, 2015USAIEEE, pp. 3431-3440. [百度学术] 

26

Zhou ZRahman Siddiquee M MTajbakhsh Net al. Unet++: A nested u-net architecture for medical image segmentation[C]//In Deep learning in medical image analysis and multimodal learning for clinical decision support2018, pp. 3-11. [百度学术] 

27

Wang JSun KCheng Tet al. Deep high-resolution representation learning for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence20204310):3349-3364. [百度学术] 

28

Hu JShen LSun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognitionSalt Lake City, UT, USAJune 18-23 2018USAIEEE, pp. 7132-7141. [百度学术] 

29

Wang QWu BZhu Pet al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C]//Proceedings of the IEEE/CVF international conference on computer visionSeattle, WA, USA, USA: IEEE, 2020 June 13-19USAIEEE, pp. 11534-11542. [百度学术] 

30

Lyu XLiu LWang Met al. HR-depth: High resolution self-supervised monocular depth estimation[C]//Proceedings of the AAAI Conference on Artificial IntelligenceVancouver, British Columbia, CanadaFeb 2-92021, USA:AAAI, vol.35, no. 3, pp.2294-2301. [百度学术]