摘要
投影角度不同导致目标的形状及尺寸变化限制了基于主动式毫米波(AMMW)全息图像投影视图的隐匿物品二维检测方法对小目标检测性能的提升,为此,提出了基于点云的隐匿物品三维检测方法。通过阈值化处理将AMMW全息图像转换为点云输入经空洞卷积及多分支结构改进的SECOND三维目标检测器,提取对目标的三维几何理解及其多尺度上下文信息以提高对小目标的检测能力。实验结果表明,较基于投影的二维检测方法,该方法平均召回率(AR)提升了3.33%,有效提升了定位精度;在交并比(IOU)阈值为0.5时的检出率提升了8.75%,虚警率降低了1.78%,平均精度(AP)提升了7.11%,不同IOU阈值下的平均AP提升了4.30%,有效提升了检测精度;检测速度为17.3 FPS,达实时水平。
主动式毫米波(Active Millimeter Wave,AMMW)全息成像技
将全息图像投影为二维视图馈入二维目标检测器进行检测可有效提高检测速
近年来,基于激光雷达点云的三维目标检测
为规避投影操作为后续目标检测带来的局限,提高对小目标的检测能力,本文首次提出将AMMW全息图像转换为点云后馈入三维目标检测器检测隐匿物品的方法。通过阈值化处理粗略提取前景图像保存为点云,降低后续处理的计算压力的同时保留物体原始的三维几何形状。由于隐匿物品检测仅涉及二分类,本文将在激光雷达点云的车辆检测任务中实现先进性能的SECOND网络引入隐匿物品检测任务。因绝大多数隐匿物品属于小目标,本文引入空洞卷积及多分支结构对SECOND进行改进,在不降低特征图分辨率的情况下提取多尺度长程上下文信息,以提高对小目标的检测精度。本文使用AMMW全息图像投影所得二维正视图上的边界框作为监督信息及输出,便于标注及可视化。为评估模型性能,本文建立了包含33881张AMMW全息图像的大型数据集。实验结果表明,较基于投影的二维检测方法,本文方法的平均召回率(Average Recall,AR
针对AMMW全息图像上的隐匿物品检测任务,本文设计的三维目标检测器框架如

图1 AMMW全息图像隐匿物品三维目标检测器框架
Fig. 1 The structure of our proposed 3D concealed object detector for AMMW holographic images
本文采集的AMMW全息图像如

图2 AMMW全息图像投影 (a) AMMW全息图像,(b) 图(a)沿方向投影所得二维正视图,(c) 三维物体投影至二维视图导致形状及尺寸变化
Fig. 2 Projection of the AMMW holographic image (a) AMMW holographic image, (b) the resulting 2D front view of performing projection along the Z axis of the holographic image in Fig. 2(a), (c) the shape and size changes caused by projecting a 3D object into 2D views
点云是一种非结构化、无序的、稀疏的三维数据表示形式。简单地说,点云即为空间中一组点的集合。为规避投影操作导致的局限,本文将AMMW全息图像转换为点云表示以保持目标原始的三维几何形状。

图3 输入模块结构
Fig. 3 The structure of our proposed input module
提升小目标的数据量有利于缓解网络降采样过程中小目标细节丢失的问题。与二维投影视图相比,三维点云保留了物体深度维度的信息,具有更高的数据量,更适合小目标检测任务。

图4 三维点云及二维正视图中的边界框内点的数量分布
Fig. 4 The distribution of the number of points in the bounding box in 3D point clouds and 2D front images
SECOND网络在基于激光雷达点云的车辆检测任务中实现了先进的性能,但激光雷达点云与AMMW雷达点云的数据分布差异较大,后者包含的隐匿物品尺寸更小,形状与尺寸变化更加多样,且存在复杂的人体背景对目标的判定造成干扰。检测小尺寸目标最常用的方式是在浅层高分辨率特征图上进行预测,但浅层特征图缺乏高层次语义信息,难以区分隐匿物品与人体背景;与之相对,深层特征图包含丰富的语义信息但小目标的细节信息随网络降采样逐渐损失。SECOND网络仅根据单层特征图进行预测,难以兼顾空间细节信息与语义信息,对小目标及多尺度目标的检测能力较弱。为此,本文设计上下文信息提取模块嵌入SECOND网络,经改进的三维特征提取器如

图5 三维特征提取器结构
Fig. 5 The structure of our proposed 3D feature extractor
如
在低降采样步长下,高分辨率特征图存在丰富的空间细节信息(如角点、边缘等),但缺乏高层次的语义信息以区分物体、人体与噪声,从而导致大量虚警。为此,本文将空洞卷积引入SubMConv,在保持特征图高分辨率的情况下,增大网络感受野,为形态描述提取长程上下文信息,构建小目标与背景间的关系作为区分小目标的特征。另外,隐匿物品的尺寸变化较大,本文设置不同分支以提取目标的多尺度信息。如
如

图6 输出模块结构
Fig. 6 The structure of our proposed output module
分类任务中,使用Focal Los
, | (1) |
其中,p为模型输出预测的置信度,
, | (2.1) |
, | (2.2) |
, | (2.3) |
, | (2.4) |
, | (2.5) |
其中,da表示锚框对角线长度,t与
, | (3) |
, | (4) |
系统最终损失函数为:
, | (5) |
其中,β1与β2用于平衡分类任务与回归任务的权重,本文取β1 = 1.0,β2 = 0.2。通过后向传播算法最小化该损失函数,可实现网络对数据的拟合与泛化。
实验建立了大规模数据集以验证方法的有效性。为模拟真实场景,本文准备了60多件物品,包括多种枪、刀具、打火机、粉末、液体瓶、手机等。模特选择一个或多个物品置于身体各个部位,经毫米波雷达扫描重建其全息图像。本数据集共包含几十名模特,涵盖不同性别与体型。全息图像沿Z方向投影得二维正视图,用于标注隐匿物体边界框及可视化。实验采集了33 881张图像,物体边界框的边长范围为[2, 72],超过60%的边界框面积小于256像素,超过90%的边界框面积小于1 024,即绝大多数隐匿物品为小目标(面积小于3
对于给定的AMMW全息图像,统计各点反射强度的95%分位数进行阈值化处理。本文使用Adam优化器及one-cycle策
本文绘制了检出率(Recall)关于IOU阈值的函数曲线并计算AR以评估系统的定位性
, | (6) |
, | (7) |
其中,numTP,numFP和numGT分别表示预测正确、预测错误及真实边界框的数量。由于隐匿物品尺寸多数较小,较低的IOU亦可接
为验证高分辨率特征图及上下文信息提取模块的重要性,本文进行了消融实验,实验结果如
“HRF”表示通过降低降采样步长获得的高分辨率特征图,“CIE”表示本文提出的上下文信息提取模块
“HRF” denotes high resolution features obtained by reducing the down-sampling stride, and “CIE” denotes our proposed context information extraction module
为评估定位性能,本文在

图7 不同网络的定位及检测性能对比 (a) 召回率关于IOU阈值的函数,(b) IOU = 0.5时的PR曲线
Fig. 7 Comparison of localization and detection performance for different networks (a) Recall as a function of IOU threshold, (b) PR curve under IOU = 0.5

图8 不同网络检测结果示意图,其中红色边界框表示真值,黄色框代表预测值 (a)-(d) 本文方法,(e) RPN,(f) Faster RCNN,(g) RetinaNet,(h) TridentNet
Fig. 8 Qualitative detection results of different networks, where the red bounding boxes denote the ground-truth, and the yellow bounding boxes denote the predicted results (a)-(d) Our proposed method, (e) RPN, (f) Faster RCNN, (g) RetinaNet, (h) TridentNet
置信度阈值用于判断是否保留检测图像输出的边界

图9 不同置信度阈值下的F1-score
Fig. 9 F1-score under different thresholds of the confidence
本文首次提出了基于AMMW三维点云的隐匿物品检测方法,在保留物体原始三维空间几何信息的同时,增大了小目标的数据量,改善了现存方法使用二维投影图像存在的目标特征不一致及小目标细节损失等问题;并引入空洞卷积及多分支结构改进了SECOND网络,在保证特征图分辨率的同时提取长程上下文信息,提高对小目标的检测能力。实验结果表明,该方法的AR提升了3.33%,有效提升了对隐匿物品的定位精度;在IOU阈值为0.5时,检出率提升了8.75%,虚警率降低了1.78%,AP提升了7.11%,不同IOU阈值下平均AP提升了4.30%,有效提升了检测精度;检测速度为17.3 FPS,可实现实时检测,证明了基于三维点云的隐匿物品检测方法的优越性。
References
Sheen D M, McMakin D L, Hall T E. Three-dimensional millimeter-wave imaging for concealed weapon detection [J]. IEEE Transactions on Microwave Theory and Techniques, 2001, 49(9): 1581-1592. 10.1109/22.942570 [百度学术]
Liu T, Zhao Y, Wei Y, et al. Concealed object detection for activate millimeter wave image [J]. IEEE Transactions on Industrial Electronics, 2019, 66(12): 9909-9917. 10.1109/TIE.2019.2893843 [百度学术]
Zheng L, Yingkang J, Zongjun S, et al. A synthetic targets detection method for human millimeter-wave holographic imaging system[C]//2016 7th International Conference on Cloud Computing and Big Data (CCBD). IEEE, 2016: 284-288. 10.1109/ccbd.2016.063 [百度学术]
YAO Jia-Xiong, YANG Ming-Hui, ZHU Yu-Kun, et al. Using convolutional neural network to localize forbidden object in millimeter-wave image [J]. Journal of Infrared and Millimeter Waves姚家雄,杨明辉,朱玉琨,等。 利用卷积神经网络进行毫米波图像违禁物品定位。 红外与毫米波学报, 2017, 36(3): 354-360. [百度学术]
Wang C J, Sun X W, Yang K H. A low-complexity method for concealed object detection in active millimeter-wave images [J]. Journal of Infrared and Millimeter Waves, 2019, 38(1): 32-38. 10.11972/j.issn.1001-9014.2019.01.006 [百度学术]
Liu C, Yang M H, Sun X W. Towards robust human millimeter wave imaging inspection system in real time with deep learning [J]. Progress In Electromagnetics Research, 2018, 161: 87-100. 10.2528/PIER18012601 [百度学术]
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. 10.1109/tpami.2016.2577031 [百度学术]
Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[EB/OL]. (2016-05-03) [2021-01-26]. https://arxiv.org/abs/1511.07122. 10.4236/psych.2020.1110096 [百度学术]
Chen X, Ma H, Wan J, et al. Multi-view 3d object detection network for autonomous driving[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017: 1907-1915. 10.1109/CVPR.2017.691 [百度学术]
Zhou Y, Tuzel O. Voxelnet: End-to-end learning for point cloud based 3d object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4490-4499. 10.1109/cvpr.2018.00472 [百度学术]
Yan Y, Mao Y, Li B. SECOND: Sparsely embedded convolutional detection [J]. Sensors, 2018, 18(10): 3337. 10.3390/s18103337 [百度学术]
Zhu B, Jiang Z, Zhou X, et al. Class-balanced grouping and sampling for point cloud 3d object detection [EB/OL]. (2019-08-27) [2021-01-26]. https://arxiv.org/abs/1908.09492. [百度学术]
Hosang J, Benenson R, Dollar P, et al. What Makes for Effective Detection Proposals? [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(4): 814-830. 10.1109/tpami.2015.2465908 [百度学术]
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327. 10.1109/tpami.2018.2858826 [百度学术]
Smith L N, Topin N. Super-convergence: Very fast training of neural networks using large learning rates[C]//Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications. International Society for Optics and Photonics, 2019, 11006: 1100612. 10.1117/12.2520589 [百度学术]
Gidaris S, Komodakis N. Locnet: Improving localization accuracy for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 789-798. 10.1109/cvpr.2016.92 [百度学术]
Li Y, Chen Y, Wang N, et al. Scale-aware trident networks for object detection[C]//Proceedings of the IEEE international conference on computer vision. 2019: 6054-6063. 10.1109/iccv.2019.00615 [百度学术]