摘要
从热红外图像对比度低、细节信息不足等特点出发,提出了一种面向热红外图像的景深估计方法。首先,设计了一种红外特征聚合模块,提高了对目标物边缘和小目标的全方位深度信息获取能力;其次,在特征融合模块中引入了通道注意力机制,进一步融合通道间的交互信息;在此基础上,建立了一种深度估计网络,实现热红外图像的像素级景深估计。消融实验与对比实验的结果表明,该方法在热红外图像像素级景深估计中性能优于其他代表性方法。
从二维图像中估计场景的深度信息是计算机视觉中的一个经典问
根据是否需要深度标签及深度标签的稠密度,现有的基于深度学习的单视图景深估计方法总体上可以分为三
2016年,Garg等人创造性地提出了一种利用左/右视图的自监督景深估计方法,根据预测的视差值和左视图重建右视图,其中使用光度误差作为网络模型的监督信息,但该方法最大的缺陷是网络模型优化迭代困
近年来,热红外成像技术快速发展,该技术通过捕获目标发出的热辐射,经过光电转换后将其转换成图像,避免了光照条件的限制,在一定程度上弥补了可见光图像在低能见度条件下不能使用的不足,目前已经被广泛用于安防监控、设备故障诊断、人体医学影像检查等民用领域以及夜视观察、精确制导等军用领
本文提出的基于红外图像序列的景深估计方法,根据红外图像存在有效特征不足的特点,针对Monodepth2中的景深估计网络进行了改进,在多层特征图提取的基础上,建立了自底向上的特征聚合模块,通过引入通道注意力机制ECANet改进了特征融合模块,提高网络的特征提取能力和红外图像深度估计性能。
自监督信息的实质是根据相机成像和立体几何投影原理,即同一视频序列的相邻两帧之间存在严格的约束关系,利用这种约束关系即可构建自监督信息。不失一般地假设世界坐标系为前一帧图像所在相机位置的机体坐标系,空间点P在第一位置的相机机体坐标系的位置为(X1, Y1, Z1),则后一帧图像所在相机位置的机体坐标系为(X2, Y2, Z2),根据两个相机坐标系之间的转换关系,可得:
, | (1) |
其中,为两个相机位置之间的姿态转移矩阵,为其位置转移向量,根据小孔成像原理与摄像机内参数矩阵,空间点P在前一帧和后一帧像素坐标下的位置分别为(u1, v1)、(u2, v2),则(u1, v1)和(X1, Y1, Z1),(u2, v2)和(X2, Y2, Z2)的关系可表示为:
, , | (2) |
其中,03×1=[0, 0, 0
. | (3) |
且根据
. | (4) |
由
. | (5) |
因此,由
. | (6) |
如上文所述,基于序列图像的自监督学习框架需要解决两个问题,分别为六自由度位姿参数R和T的估计,和像素级深度Z1的估计。因此,基于序列图像的自监督单目深度估计方法涉及到了多任务联合训练,需要分别训练深度估计网络和位姿估计网络,基本结构图如下

图1 基于序列红外图像的景深估计网络架构
Fig. 1 The framework of depth estimation using thermal infrared image sequences
在进行网络训练过程中,本文利用原图和由网络重建的图像间的差异构建损失函数,该损失函数被称为重投影损失,该损失函数分为两个部分:L1损失和用于描述两幅图像的亮度相似性和对比度相似性的结构相似性度量(Structural Similarity Index Measurement, SSIM
, | (7) |
其中,和分别表示原图和重建图中(ui, vi)像素的亮度值,num表示图像像素数,和分别表示原图和重建图像间亮度的平均值,和分别表示两张图像亮度的标准差,c1和c2为防止分母为零而设置的常数。
深度估计网络为了实现像素级景深估计,其基本构型均为编解码器(Encoder-Decoder)结构,编码器就是一个特征提取模块,提取出输入图像的深度特征信息,再由解码器通过对特征信息的融合将其转化为深度图。最早的编解码结构使用全卷积网络(Fully Convolutional Networks, FCN

图2 本文的深度估计网络(Conv下方的数字表示卷积核的数量)
Fig. 2 The depth estimation network of this paper ( The number below Conv indicates the number of convolutional kernels)
在特征提取部分,由于输入的是红外图像,因此设网络的输入为(
五层特征提取模块(
在Monodepth2中,直接使用跳连接(Skip Connect)实现了不同特征图之间的融
. | (8) |
特征融合模块以特征提取模块得到的五个特征图{F1, F2, F3, F4, F5}和特征聚合模块得到的三层聚合特征{A11,A12, A13},{A21, A22}和{A31}为输入,自下而上得到六个融合后的特征图{C0, C1, C2, C3, C4, C5},其计算方法如下
. | (9) |
近年来,人们发现将通道注意力引入卷积块能够明显改善卷积神经网络(Convolutional Neural Network, CNN)性能,具有巨大的潜力。CNN中广泛使用的SENet注意力机制通过学习每个卷积块的通道注意力就能使各种CNN网络模型性能大大提升。SENet主要分为两个部分,压缩(聚合特征)和激励(校准特征)。SENet虽然有着较高的精度,但是会使模型变得十分复杂,从而导致计算负担巨大,计算成本也显著上身;除此之外,由于SENet中采取了降维操作,对通道注意力的预测会产生负面影响,并且效率低下,所以本文采用ECANet注意力机制提高融合特征的表达能力。和SENet相
, | (10) |
其中,为第i个通道的特征图。在此基础上,ECANet考虑每个通道及其邻近k个通道来获取跨通道交互信息,通过卷积核大小为k的快速一维卷积来实现通道之间的信息交互。卷积核大小k表示有k个相邻通道参与一个通道的注意力预测,即局部跨通道交互的覆盖率,它的数量直接关系到了ECANet模块的计算效率和复杂度。一维卷积的结果在经过Sigmoid函数后输出通道注意力权重,将权重向量的元素与原始特征图对应通道相乘,最终得到新的特征图用于后续深度估计。
, | (11) |

图3 ECANet通道注意力模块结构
Fig. 3 The structure of ECANet
k的值根据特征向量的通道数量s确定:
, | (12) |
其中,|•|odd表示取离括号内参数最近的奇数,γ=2,b=1。
综上所述,本文提出的面向红外图像景深估计的网络,在编解码器之间采取了特征提取能力更强的密集跳连接方式进行级联,实现特征信息的多尺度融合,提高了网路特征提取能力。同时,改进后的方法在解码器部分接入了通道注意力机制ECANet,进一步提升了特征表达与融合能力。
实验使用的数据集为FLIR红外数据集(https:// www.flir.com/oem/adas/adas-dataset-form,采用FLIR-Tau2热红外相机))和自行拍摄的红外数据集(采用FLIR-A35热红外相机采集),两种数据集中的红外图像数据均是动态背景下的车载图像,由若干个连续的视频序列组成,一共11521张图像。其中,训练集9 677张,测试集1 844张。
参数 | FLIR-Tau2 | FLIR-A35 |
---|---|---|
图像分辨率 | 640×512 | 320×256 |
相机参数 |
HFOV 45° VFOV 37° 13 mm f/1.0 |
HFOV 48° VFOV 39° 9 mm f/1.0 |
相机内参数矩阵 | ||
图像采样率 | 30 Hz | 30 Hz |
参数 | 数值 |
---|---|
ResNet层数 | 18 |
学习率 | 0.000 1 |
迭代次数 | 20 |
在对实验结果进行分析过程中,将从定性和定量两个方面展开对比分析。定性分析主要是通过计算得到的深度图对三种网络模型的结果进行比较;定量分析主要是使用带有真实目标物深度的红外图像进行测试,计算出目标物真实值与利用深度图所预测出的目标物深度值的误差率并进行比较。
实验中使用的测试图像包括FLIR数据集中的图像和使用FLIR A35型号热成像仪在实际道路上拍摄的红外图像。用于对比的方法主要是:(1)Monodepth2方法,该方法是本文所提出方法的基准方法(Baseline);(2)HR-Depth方

图4 FLIR数据集测试样本与使用不同方法得到的深度图
Fig. 4 Test images from the FLIR dataset and corresponding depth maps
为了验证该方法的泛化能力,我们利用FLIR A35热成像仪获取和训练数据集不相关的场景图像进行测试。由于FLIR A35热成像仪提供的图像分辨率为320×256 pixels,因此在进行深度估计前,利用双线性插值将测试图像的分辨率变为640×512 pixels。

图 5 FLIR A35摄像机拍摄的测试样本与使用不同方法得到的深度图
Fig. 5 Test images from the FLIR A35 TIR camera and corresponding depth maps
根据
在这一节中,使用的测试图片为FLIR A35拍摄的红外图像,在拍摄前使用激光测距仪测量好场景中的特定目标到相机的真实距离作为基准值,通过比较真实距离和网络估计的距离并引入深度估计的误差率作为评价指标进行量化对比。误差率E定义为:
, | (13) |
其中,N为测试图像总数,为场景目标由激光测距仪得到的真实深度,为场景目标的估计深度。作为标准值的场景目标真实深度是通过激光测距仪测量目标平面区域的深度值的平均值所获取。定量对比中共设置了60个目标,并利用激光测距仪确定了其真实深度值,随机分布在区间10~25m内。为了确保标准值的准确性,所选取的目标区域所占整体图像区域的比例均大于1%。在相同测试条件下,使用三种不同深度估计网络对目标进行深度估计并得到估计深度值,进而计算出不同目标距离值,并与各目标真实距离进行比较。

图6 输入图像与距离估计结果,(a) 原图与真实值,(b) 本文方法得到的结果,(c) HR-Depth得到的结果,(d) Monodepth2得到的结果
Fig. 6 Input image and distance estimation results, (a) the input image and the ground truth, (b) the result of distance estimation by the proposed method, (c) the result of distance estimation by HR-Depth, (d) the result of distance estimation by Monodepth2
方法 | Proposed | HR-Depth | monodepth2 |
---|---|---|---|
E | 19.58% | 20.09% | 21.68% |
从
方法 | E | |||
---|---|---|---|---|
<10% | <20% | <30% | >30% | |
Proposed | 41.67% | 66.67% | 90.00% | 10.00% |
HR-Depth | 36.67% | 63.33% | 86.67% | 13.33% |
monodepth2 | 25.00% | 58.33% | 85.00% | 15.00% |
由于红外图像本身具有对比度低、分辨率低、目标细节信息不足等缺点,本文构建了一种针对单幅红外图像的自监督深度估计方法。该网络由特征提取模块、特征聚合模块和特征融合模块三个部分组成。首先,设计了一种特征聚合模块,提高景深估计网络对场景目标物体边缘信息和小物体信息的获取能力;其次,在特征融合模块中引入了通道注意力机制,有效获取通道间的交互关系;在此基础上,建立了一种面向热红外图像的深度估计网络。在实验部分,对三种网络模型设置了完全相同的训练集、训练参数和训练环境,在此基础上进行定性和定量两种对比实验。定性结果显示,本文提出的方法生成的深度图像总体质量最好,具体体现在改进网络模型生成的深度图内目标轮廓更加明显、目标与目标之间的区分度较明显。对于定量结果,实验将60个目标的真实深度与三种方法的估计深度进行比较,求出误差率,进而对模型的性能进行比较和判断。最终结果显示,对于整个测试数据集,本文提出的网络模型深度估计的平均误差率最小,整体准确度最高。
References
Huang J, Wang C, Liu Y, et al. The progress of monocular depth estimation technology[J]. Journal of Image and Graphics, 2019, 24(12):2081-2097. [百度学术]
黄军, 王聪, 刘越, 等. 单目深度估计技术进展综述[J]. 中国图象图形学报, 2019, 24(12):2081-2097. 10.11834/jig.190455 [百度学术]
Jia D, Zhu N D, Yang N H, et al. Image matching methods[J]. Journal of Image and Graphics, 2019, 24(5): 677-699. [百度学术]
贾迪, 朱宁丹, 杨宁华, 等. 图像匹配方法研究综述[J]. 中国图象图形学报, 2019, 24(5): 677-699. [百度学术]
Dong X, Garratt A M A, Anavatti G S, et al. Towards Real-Time Monocular Depth Estimation for Robotics: A Survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(10):16940-16961. [百度学术]
Liu Y, Jiang J, Sun J, et al. A survey of depth estimation based on computer vision[C]//Proceedings of the IEEE 5th international conference on data science in cyberspace, 27-30 July 2020, Hong Kong, China, USA:IEEE, pp. 135-141. [百度学术]
Ming Y, Meng X, Fan C, et al. Deep learning for monocular depth estimation: A review[J]. Neurocomputing, 2021, 438:14-33. [百度学术]
Masoumian A, Rashwan H A, Cristiano J, et al. Monocular Depth Estimation Using Deep Learning: A Review[J]. Sensors, 2022, 22(14):5353. [百度学术]
Qi X, Liao R, Liu Z, et al. Geonet: Geometric neural network for joint depth and surface normal estimation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18-23 June 2018, USA:IEEE, pp. 283-291. [百度学术]
Ummenhofer B, Zhou H, Uhrig J, et al. Demon: Depth and motion network for learning monocular stereo[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 21-26 July 2017, USA:IEEE, pp. 5038-5047. [百度学术]
Luo Y, Ren J, Lin M, et al. Single view stereo matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18-23 June 2018, USA:IEEE, pp. 155-163. [百度学术]
Xie J, Girshick R, Farhadi A. Deep3d: Fully automatic 2d-to-3d video conversion with deep convolutional neural networks[C]//European Conference on Computer Vision, Amsterdam, The Netherlands, October 11-14, 2016, Germany:Springer, pp. 842-857. [百度学术]
Zhan H, Garg R, Weerasekera C S, et al. Unsupervised learning of monocular depth estimation and visual odometry with deep feature reconstruction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18-23 June 2018, USA:IEEE, pp. 340–349. [百度学术]
Ding M, Jiang X Y. Scene Depth Estimation Based on Monocular Vision in Advanced Driving Assistance System[J]. Acta Optica Sinica, 2020, 40(17):1715001-1-1715001-9.丁萌, 姜欣言. 先进驾驶辅助系统中基于单目视觉的场景深度估计方法[J]. 光学学报,2020, 40(17):1715001-1-1715001-9. [百度学术]
Garg R, Bg V K, Carneiro G, et al. Unsupervised cnn for single view depth estimation: Geometry to the rescue[C]// Proceedings of the European Conference on Computer Vision, Amsterdam, The Netherlands, 11-14 October 2016, Germany:Springer, pp. 740-756. [百度学术]
Godard C, Mac Aodha O, Brostow G J. Unsupervised monocular depth estimation with left-right consistency[C]// Proceedings of the IEEE conference on computer vision and pattern recognition, Honolulu, HI, USA, July 21-26 2017, USA:IEEE, pp. 270-279. [百度学术]
Tosi F, Aleotti F, Poggi M, et al. Learning monocular depth estimation infusing traditional stereo knowledge[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, June 15-20 2019, USA:IEEE, pp. 9799-9809. [百度学术]
Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, Honolulu, HI, USA, July 21-26 2017, USA:IEEE, pp. 1851-1858. [百度学术]
Lai H Y, Tsai Y H, Chiu W C. Bridging stereo matching and optical flow via spatiotemporal correspondence[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, June 15-20 2019, USA:IEEE, pp. 1890-1899. [百度学术]
Zou Y, Luo Z, Huang J B. Df-net: Unsupervised joint learning of depth and flow using cross-task consistency[C]// Proceedings of the European conference on computer vision (ECCV), Munich, Germany, Sep 8-14, 2018, Germany:Springer, pp. 36-53. [百度学术]
Godard C, Mac Aodha O, Firman M, et al. Digging into self-supervised monocular depth estimation[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, Seoul, Korea, Oct. 27-Nov. 2, 2019, USA:IEEE, pp. 3828-3838. [百度学术]
Li X G, Cao M T, Li B, et al. GPNet: Lightweight infrared image target detection algorithm[J]. Journal of Infrared and Millimeter Waves, 2022, 41(6):1092-1101. [百度学术]
李现国, 曹明腾, 李滨, 等. 2GPNet:轻量型红外图像目标检测算法[J]. 红外与毫米波学报, 2022, 41(6):1092-1101. [百度学术]
Ding M, Chen W-H, Cao Y F. Thermal Infrared Single-Pedestrian Tracking for Advanced Driver Assistance System[J] IEEE Transactions on Intelligent Vehicles, online, 2022. DOI: 10.1109/TIV.2022.3140344. [百度学术]
He Y, Deng B, Wang H, et al. Infrared machine vision and infrared thermography with deep learning: A review[J]. Infrared physics & technology, 116(103754), 2021. [百度学术]
Li X, Ding M, Wei D H, et al. Depth estimation method based on monocular infrared image in VDAS[J]. Systems Engineering and Electronics, 2021, 43(5):1210-1217. [百度学术]
李旭, 丁萌, 魏东辉, 等. VDAS中基于单目红外图像的深度估计方法[J]. 系统工程与电子技术, 2021, 43(5):1210-1217. 10.12305/j.issn.1001-506X.2021.05.07 [百度学术]
Wang Z, Bovik A C, Sheikh H R, et al. Image Quality Assessment: From Error Visibility to Structural Similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. [百度学术]
Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, Boston, MA, USA, June 7-12, 2015, USA:IEEE, pp. 3431-3440. [百度学术]
Zhou Z, Rahman Siddiquee M M, Tajbakhsh N, et al. Unet++: A nested u-net architecture for medical image segmentation[C]//In Deep learning in medical image analysis and multimodal learning for clinical decision support, 2018, pp. 3-11. [百度学术]
Wang J, Sun K, Cheng T, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2020, 43(10):3349-3364. [百度学术]
Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, Salt Lake City, UT, USA, June 18-23 2018, USA:IEEE, pp. 7132-7141. [百度学术]
Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C]//Proceedings of the IEEE/CVF international conference on computer vision, Seattle, WA, USA, USA: IEEE, 2020 June 13-19, USA:IEEE, pp. 11534-11542. [百度学术]
Lyu X, Liu L, Wang M, et al. HR-depth: High resolution self-supervised monocular depth estimation[C]//Proceedings of the AAAI Conference on Artificial Intelligence, Vancouver, British Columbia, Canada, Feb 2-9, 2021, USA:AAAI, vol.35, no. 3, pp.2294-2301. [百度学术]