一种无人车夜间三维目标检测方法

网友投稿 706 2023-01-31

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

一种无人车夜间三维目标检测方法

引言

1 多视角通道融合网络

本文所采用的多视角通道融合网络由特征提取模块、候选区域生成模块和通道融合模块组成,整体结构图如图1所示。

特征提取模块由特征编码网络和特征解码网络2 部分组成,结构如图2所示。

图1 多视角通道融合网络结构图

图2 特征提取模块结构图

Fig.2 Structure diagram of feature extraction module

特征编码网络采用的是改进后的VGG(visual geometry group)16 网络[12],将原VGG16 网络的通道数减少一半至50%,然后在网络中加入批标准化层,并在Conv4 删除最大池化层。特征编码网络将M×N×C的红外图像、鸟瞰图或前视图作为输入,并输出

的特征图。式中,M表示图像的长,N表示图像的宽,C表示通道数。对于红外图像,C为1。特征解码网络采用特征金字塔网络[13]的形式,学习将特征映射上采样回原始的输入大小。特征解码网络将特征编码网络的输出作为输入,输出新的 M×N×D的特征图,如图2所示,通过转换-转置操作对输入进行上采样处理,并和来自特征编码网络的对应特征映射进行级联操作,最后通过3×3 卷积来融合二者。

输入一幅鸟瞰图,候选区域生成模块会生成一系列的三维候选区域。每个三维候选区域有六维的参数:(x,y,z,l,w,h),分别表示三维候选区域在激光雷达坐标系中的中心坐标和长宽高尺寸。对于每个三维候选区域,对应在鸟瞰图中的参数(xbv,ybv,lbv,wbv)利 用离散的 (x,y,l,w)变换可以得到,表示三维候选区域在鸟瞰图中的坐标和长宽,其中 离散分辨率为0.1 m。

通道融合模块结合各个视角的特征,对各视角上的目标进行联合分类,并针对三维候选区域进行定向回归。由于不同的视角有不同的分辨率,对于每个视角通道所输出的不同分辨率的特征向量,通过ROI(region of interest)池化操作将每个视角通道所输出的特征向量调整到相同的长度。通过下式得到3 个视角不同的ROI。

式中:T3D→v表示从激光雷达点云坐标系到鸟瞰图形式、前视图形式,和红外图像的转换函数;P3D表示三维候选区域参数向量。对于区域候选网络所生成的三维候选区域,将其投影到经过ROI池化操作的鸟瞰图形式(BV)特征向量、前视图(FV)特征向量和红外图像(IR)特征向量中。对于从某个视角特征提取通道中输出的特征向量 x,通过ROI池化获得固定长度的特征 fv。

式中:R表示相应的矩阵变换。为了融合来自各个视角通道的特征信息,采用多层次融合的方法,分层融合多视角特征,使得各通道的信息可以在中间层有更多的交互。如图3所示。

图3 通道融合网络结构图

Fig.3 Structure diagram of channel fusion network

对于通道融合网络的每一层,输入为鸟瞰图形式、前视图形式以及红外图像3 个通道的特征,经过一次逐元素平均计算后,再经过各自的中间卷积层进一步提取特征。具体的融合过程如下式所示。

式中:fl表示第 l层的融合结果;fBV、fFV和 fIR分别表示鸟瞰图通道、前视图通道以及红外图像通道的输入特征;

表示第l层不同通道的中间卷积层;⊕表示逐元素平均运算;经过通道融合网络融合各个视角通道的特征之后,利用融合结果对候选区域模块生成的三维候选区域进行回归校正,并将融合结果输入Softmax 分类器对三维候选区域内的物体进行分类识别。

2 实验内容

2.1 实验配置与数据预处理

对于激光雷达点云数据,其中每一个点由其三维坐标 (x,y,z)和 反射率 r组成,本文将其转化为鸟瞰图与前视图的形式。鸟瞰图形式指的是沿水平坐标系(地面)将激光雷达点云分割成700×800 的网格,再沿Z轴方向把激光雷达点云平均分成5 层。对于每一个区域,提取其中最大高度的点的高度作为高度特征;该长方体区域内点的数目作为密度特征;对于密度特征ρ,作归一化处理。

式中N是长方体区域内点的数目。最后将激光雷达点云转换成通道数为700×800×6 的鸟瞰图形式。前视图形式指的是将激光雷达点云投射到一个前方的圆柱体平面上。给定激光雷达点云中的一个点的三维坐标 p=(x,y,z),其在前视图中的坐标 pfv=(r,c)可以通过下式计算得出。

式中:Δθ是 激光的水平分辨率;Δϕ是垂直分辨率。

2.2 实验结果及分析

把红外图像与激光点云数据输入到多视角通道融合网络中,网络给出检测结果。由于红外摄像头与激光雷达的采集频率不一致,本文根据激光雷达帧号匹配红外图像,设定阈值为10 帧,寻找与雷达帧号小于阈值且最接近的图像作为对应图像,如图4所示。

图4 输入的红外图像与对应的激光雷达点云

Fig.4 Input infrared image and lidar point cloud

从表1的结果中可得,本文算法在牺牲部分时间的情况下提高了夜间目标检测的正确率。为了更直观地显示本文算法结果,将目标检测的结果显示在激光雷达点云的鸟瞰图形式上和红外图像上,其中绿色矩形框表示行人,红色矩形框表示车辆。如图5所示。

表1 不同算法在测试集上的结果对比

Table1 Comparison of results for different algorithms on test sets

图5 目标检测可视化结果

Fig.5 Visualized result of detection

由图5可以看出,对于图5(a 组),本文算法可以很好地定位行人的位置;对于图5(b 组),虽然红外图像分辨率较低,连人眼也不容易分辨图片中的车辆,但加入激光雷达点云信息后对于该车的定位准确;对于图5(c 组),本文算法定位结果与人工标注信息一致。

3 结论

本文采用多传感器融合的思想,在原有红外图像的基础上加入激光雷达点云,并使用多视角通道融合网络对这2 种数据进行特征融合,准确地检测出目标的位置以及类别。实验结果表明,该方法能够提高无人车在夜间的物体识别能力,在实验室的测试数据中准确率达到90%,每帧耗时0.43 s,达到实际应用要求。

原文标题:基于多视角融合的夜间无人车三维目标检测

上一篇:有屏交互成为智能音箱市场新的爆发点
下一篇:洋巨头鏖战智能家居领域
相关文章

 发表评论

暂时没有评论,来抢沙发吧~