您当前的位置:首页 > 生活百科 > 汽车

OccupancyDETR:使占用网络与目标检测一样直接!

时间:2023-09-28 11:47:42  来源:自动驾驶之心  作者:

OccupancyDETR:使占用网络与目标检测一样直接!

论文链接:https://arxiv.org/pdf/2309.08504.pdf

代码链接:https://Github.com/jypjypjypjyp/OccupancyDETR

基于视觉的3D语义占用感知(也称为3D语义场景完成)是自动驾驶等机器人应用的一种新的感知范式。与BEV感知相比,它扩展了垂直维度,显著增强了机器人理解周围环境的能力。然而,正是由于这个原因,当前3D语义占用感知方法的计算需求通常超过BEV感知方法和2D感知方法。我们提出了一种新的3D语义占用感知方法OccupancyDETR,该方法由类似DETR的目标检测模块和3D占用解码器模块组成。目标检测的集成在结构上简化了我们的方法——它不是预测每个体素的语义,而是识别场景中的目标及其各自的3D占用网格。这加快了我们的方法,减少了所需的资源,并利用了目标检测算法,使其在小目标上具有显著的性能。在SemanticKITTI数据集上证明了本文提出方法的有效性,展示了23%mIoU和每秒6帧的处理速度,从而为实时3D语义场景完成提供了一个有前景的解决方案!

当前的一些主流方案

3D语义感知是机器人的一项基本能力。目前流行的方法采用了涉及激光雷达和相机的多传感器融合,然而,这种方法引起了诸如高成本和缺乏可移植性等问题。近年来,人们对基于纯视觉的3D语义感知方案产生了越来越大的兴趣,因为它们在不影响性能的情况下成本相对较低。最初,引入了BEV感知,显著增强了自动驾驶场景中的感知能力。随后,出现了3D语义占用感知,将BEV感知扩展了垂直维度,从而在各种场景中提供了更广泛的适用性。为此,我们专注于基于视觉的三维语义占用感知,目标是为这项任务开发一种更直接、更有效的方法。

科学家们在对人类视觉感知的研究中注意到,在高级视觉处理中,倾向于优先考虑场景中的一些前景目标,同时参考未被注意到的背景信息。受此启发,在3D语义占用感知中,我们模仿人类视觉感知的机制,引入了类似DETR的目标检测模块来指导3D语义占用网格的预测。我们使用检测到的目标边界框结果作为位置先验,并使用目标的隐藏特征作为上下文信息,然后利用空间transformer解码器来提取每个目标的3D占用网格。

这里提到的“目标”并不是精确地表示单个目标,而是表示具有相同语义的目标集群,例如一丛树或一组建筑。通过这种方式,3D语义占用感知的任务被分解为识别场景中的各种目标,然后提取它们各自的3D占用网格。从早期的YOLO到最近的Deformable DETR等方法,目标检测算法已经开发了多年,在复杂场景下取得了优异的性能。此外,它们的复杂度水平显著低于3D语义占用感知。我们希望通过集成成熟的目标检测算法来简化3D语义占用感知方法,旨在使3D语义占用认知与目标检测一样简单,并将这些任务统一在单个神经网络中。最后,在SemanticKITTI数据集上验证了提出的方法,证明了在较小目标上的卓越性能、更快的速度和更少的资源需求。

OccupancyDETR:使占用网络与目标检测一样直接!

我们的主要贡献如下:

1)提出了一种新的3D语义占用预测方法,该方法结合了目标检测。这种方法简单高效,特别擅长处理小目标,并在SemanticKITTI数据集上取得了优异的性能;

2)针对Detrlike算法的慢收敛问题,提出了一种早期匹配预训练。这种预训练增强了训练的确定性并加速了融合;

3)设计了两种类型的3D占用解码器,一种使用带高程的BEV查询,另一种使用3D box查询。通过实验比较,检验了这两种方法在不同类别物体上的性能;

我们提出的方法

模型整体结构如图2所示,它由两部分组成:目标检测模块和3D占用解码器。对于输入图像,使用Re.NET50主干来提取特征,然后将这些多尺度特征传递到可变形编码器中进行进一步编码。在第二步中,通过可变形的DETR解码器对固定数量的查询进行解码,然后将其传递到三个Head——分类Head、2D box Head和3D box Head。来自分类头和2D box Head的结果是目标检测中的常规结果,根据分类头的输出来选择高置信度的目标。在第三步骤中,这些高置信度目标的3D框用作3D占用解码器的每个目标的位置先验,从而提供位置嵌入。从可变形DETR解码器获得的特征用作上下文信息。随后,3D占用解码器基于可变形DETR编码器编码的多尺度特征来预测每个目标的3D占用网格。

OccupancyDETR:使占用网络与目标检测一样直接!

1)目标检测模块

我们将目标检测引入到三维语义占用预测中,旨在简化和辅助三维语义占用的预测。因此,识别出的“目标”与传统目标检测中的“目标“不同。在生成注释数据时,首先根据距离从体素网格中对语义目标进行聚类,而不精确区分每个目标。然后将每个聚集的目标投影到2D图像上,并基于这些投影点计算2D bounding box,而且在投影过程中会考虑遮挡。我们防止完全遮挡的不可观察目标影响模型学习,因此将这些目标排除在外。然而,为了赋予模型场景补全功能,会保留部分遮挡的目标。

OccupancyDETR:使占用网络与目标检测一样直接!

模型在两阶段可变形DETR的基础上进行了改进,如图3所示。作为第一种基于transformer的端到端方法,DETR由于独立于任何手动设计方法,被许多学者认为是目标检测的新方向。然而,DETR中不明确的查询和二分匹配带来的不确定性导致训练过程中收敛速度极慢。我们发现,在DETR的长期训练中,大多数时候,二分匹配仍然不稳定。将此归因于这样一个事实,即该模型必须经过大量的试验才能为整个数据集找到合适的查询,这占用了大部分训练时间。因此,在目标检测模块中,我们采用了两阶段可变形DETR,并为查询选择过程设计了早期匹配预训练。在常规训练阶段,从编码器输出的每个多尺度特征在查询选择过程中被分配一个预设的ROI。这些特征是通过分类Head计算的,并选择得分最高的前k个特征作为查询的上下文信息,其相应的ROI作为查询的位置。在通过可变形解码器之后,然后将它们与GT进行匹配。在早期匹配预训练中,预先设置的ROI和groundtruth之间的先前二分匹配确保了确定性,避免了搜索合适查询的漫长过程,从而加快了后续的常规训练。在目标检测的最后阶段,由可变形detr解码器处理的查询已经具有模糊的3D空间信息。除了分类头和2D bounding box Head之外,我们还添加了一个额外的3D bounding box Head。这用于预测camera坐标系下目标的3D边界框。然后,根据相机的外参,将其转换到占用网格坐标系中,为后续的3D占用解码器提供位置先验。

2)3D Occupancy Decoder

在目标检测阶段之后,选择高置信度结果,并且将它们的特征连同占用网格坐标系中预测的3D框一起传送到3D占用解码器模块中。考虑到我们并不完全相信3D box的预测结果,适度地放大了所有的3D box。如图4所示,采用了两种查询构建模式。在具有高程模式的BEV查询中,在该三维长方体的中间层均匀采样32×32个点。另一方面,在3D长方体查询模式中,在整个3D长方体空间中均匀采样16×16×4个点。这些点被称为三维参考点,当投影到2D图像上时,它们被称为2D参考点,这些三维参考点的位置嵌入与上下文结合用作三维查询!

OccupancyDETR:使占用网络与目标检测一样直接!

3D占用解码器包括N层空间解码器层。每个空间解码器层由3D可变形的自注意和多尺度可变形的交叉注意构成,三维可变形自我注意的过程可以公式化如下:

OccupancyDETR:使占用网络与目标检测一样直接!

最后,使用线性层将具有高程的BEV查询直接提升到三维占用网格中。或者,通过使用与3D卷积相结合的上采样,将3D Box Queries扩展到相同大小的3D占用网格!

3)训练策略

整个训练过程分为四个步骤。尽管有多个阶段,但始终有相同的注标注数据,这使得过程不会过于复杂。第一步涉及通过早期匹配进行预训练,以加速两阶段可变形detr的收敛。第二步涉及对两阶段可变形detr的定期训练,从而产生训练有素的目标检测模型。在第三步中,冻结目标检测模型的权重,并利用其结果来训练3D占用解码器。在第四步也是最后一步中,不再冻结目标检测模型的权重,并使用较小的学习率对整个模型进行微调。

损失函数如下:

OccupancyDETR:使占用网络与目标检测一样直接!

实验对比

1)实验数据集和设置

SemanticKITTI数据集建立在KITTI Odometry数据集基础上,强调使用激光雷达点和前向相机对场景的语义理解。OccupancyDETR作为单目3D语义占用感知,仅使用左前视图相机作为输入。在该数据集中,注释的语义占用表示为形状为256×256×32的体素网格。每个体素的尺寸为0.2m×0.2m×0.2m,并带有21个语义类别的标签(19个语义,1个自由,1个未知)。考虑到该数据集的语义体素网格是由多帧拼接的激光雷达点云和图像生成的,在远处或遮挡区域存在间隙,这种情况阻碍了目标的聚类和提取。因此,通过插值来填补语义体素网格中这些缺失的单元,从而纠正了这个问题,目标提取后获得的数据集的2D和3D标签如图6所示。

OccupancyDETR:使占用网络与目标检测一样直接!

模型训练是在Nvidia RTX 3090 GPU(24G)上进行的,而评估是在Nvidia RTX3080 GPU(16G)上进行的。训练过程跨越四个阶段,分别为50个epoch、10个epoch、50个epoch和10个epoch。每个阶段的初始学习率分别设置为1e-4、2e-5、1e-4和2e-5,然后线性地减小到零,采用权重衰减为0.01的AdamW作为优化器。ResNet50主干使用timm提供的预训练模型进行初始化,我们的实验目标是验证这个新框架的可行性和特点;因此,这里不使用任何数据扩充!

2)实验结果

如表I所示,语义场景补全(SSC)任务的mIoU对比一览:

OccupancyDETR:使占用网络与目标检测一样直接!

这里将本文的方法与其它单目3D语义占用感知方法进行了比较,并对结果进行了分析。可以看出,我们的方法在小目标上明显优于其他方法,这归因于目标检测任务;然而,在道路和人行道等类别中,我们的方法落后于其他方法,对此我们进行了进一步的分析。分析的代表性案例如图5所示。

①展示了我们的方法在小目标类别上的性能,它可以检测到远处的自行车手。②以及③揭示表现不佳的原因,我们在“道路”和“人行道”类别上的方法。我们认为这是由于我们的方法首先检测目标,然后预测每个目标的3D占用网格。然而,提取关于3D空间中不同目标之间关系的特征的能力相对较弱,这导致了模型可以基于图像直接检测附近的十字路口,但无法基于其他3D目标间接完成远处的十字路口的现象!

尽管如此,我们的方法在速度和资源需求方面的优势是显著的,推理时间和参数计数如表II所示。我们的方法平均推理时间为174ms(在Nvidia RTX 3080上),这已经实现实时性能。接下来,将BEV查询的两种模式:高程和3D box查询进行比较。发现对于大多数类别,具有高程模式的BEV查询表现更好,尤其是在道路、人行道、terrAIn和植被四类中,这四类查询存在显著差异。考虑到这四个类别在该数据集中通常是平坦的,它们更适合于具有高程模式的BEV查询。这说明了对于具有不同形状的目标,这两种模式之间的显著性能差异。

OccupancyDETR:使占用网络与目标检测一样直接!

为了验证早期匹配预训练对类似DETR的目标检测模型的积极影响,我们在相同的实验条件下对DINO和两阶段可变形DETR进行了比较研究。在我们的实验中,将初始学习率设置为1e-4,并在100个epoch内将其线性降低至零。图7显示了训练过程中验证集上三种方法的mAP曲线,表明早期匹配预训练可以更快地收敛。此外,我们还分析了DINO的性能,这是一种基于两阶段可变形DETR的方法。DINO提出了一些改进来加速收敛,其中之一是混合查询选择。这个过程包括使用可学习嵌入作为静态内容查询,同时通过查询选择选择锚点作为动态锚点。然而,静态内容查询和动态锚点的顺序之间存在错位问题,我们假设这种差异是DINO的表现没有达到预期的原因。

OccupancyDETR:使占用网络与目标检测一样直接!

OccupancyDETR:使占用网络与目标检测一样直接!

原文链接:https://mp.weixin.qq.com/s/b6Y_5d5t7jqkJQL22_hYBA



Tags:OccupancyDETR   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
OccupancyDETR:使占用网络与目标检测一样直接!
论文链接:https://arxiv.org/pdf/2309.08504.pdf代码链接:https://github.com/jypjypjypjyp/OccupancyDETR基于视觉的3D语义占用感知(也称为3D语义场景完成)是自动驾驶等机器人...【详细内容】
2023-09-28  Search: OccupancyDETR  点击:(102)  评论:(0)  加入收藏
▌简易百科推荐
聚焦AI自动驾驶 热闹背后的三个灵魂拷问
2024年,如果还有人没听说过人工智能,那恐怕就不是一句OUT能够形容的了。Artificial Intelligence简称AI,已经是老少皆知、无远弗届的存在。从美国瑰丽七股(Magnificent Seven)、...【详细内容】
2024-04-09    车质网  Tags:AI自动驾驶   点击:(3)  评论:(0)  加入收藏
二手车电池,被“黑市”疯抢
新能源汽车“价格战”再次升级,二手车市场却被打了个措手不及。春节刚过,比亚迪打响了新车价格战第一枪,旗下两款混插车型上市,最低售价跳水至7.98万元。4月1日,问界新M7入门型车...【详细内容】
2024-04-07    中国新闻周刊  Tags:电池   点击:(3)  评论:(0)  加入收藏
保费和50万元油车接近?小米汽车再回应
小米汽车热度不减!小米汽车发布小米SU7答网友问(第九集),就保险费用和50多万元油车接近等问题,作出回应。小米SU7命名有什么来由吗?SU,是Speed Ultra的缩写。高性能是小米的基...【详细内容】
2024-04-07    新黄河  Tags:小米汽车   点击:(5)  评论:(0)  加入收藏
理想汽车上线“潮汐 App”:车内提供小憩模式、冥想模式
IT之家 4 月 6 日消息,理想汽车日前宣布,潮汐 App 现已上线理想 MEGA、理想 L 系列车型,号称为车主打造“专属休憩空间”。IT之家附官方介绍:小憩模式:潮汐独特的小憩助手,专为车...【详细内容】
2024-04-07    IT之家  Tags:潮汐 App   点击:(3)  评论:(0)  加入收藏
特斯拉又涨价了,跟不跟?
喜欢反复降价、涨价,反复试探用户底线的特斯拉,刚刚又有新动作。4月1日,特斯拉Model Y全系涨价5000元, 现款车型售价区间变更为26.39万元-36.89万元。调整价格本是汽车市场常见...【详细内容】
2024-04-03  My车轱辘    Tags:特斯拉   点击:(5)  评论:(0)  加入收藏
雷军:小米SU7大定超10万单,锁单超4万!中国必将诞生像特斯拉一样伟大的公司
快科技4月3日消息,今天,小米汽车正式开始交付,这也标志着雷军三年前的承诺变为现实。首批车主将在今天(4月3日)接收他们的小米SU7,成为这款车的首批车主。根据官方消息,5000辆小米S...【详细内容】
2024-04-03    快科技  Tags:小米SU7   点击:(5)  评论:(0)  加入收藏
小米SU7开启全国首批交付,雷军亲手向首批车主交车
4月3日,在北京亦庄小米汽车工厂举行的小米SU7首批交付仪式上,小米集团创始人雷军亲自迎接了每一位新车车主,并为他们开关车门。雷军在微博上分享了这一刻的喜悦:“三年前的豪言...【详细内容】
2024-04-03  互联网的一些事    Tags:SU7   点击:(5)  评论:(0)  加入收藏
驾驶证快到期了怎么办?换证指南来了!手机就能办→
在座的老司机都知道驾驶证有效期分为6年、10年和长期其中,有效期6年和10年的驾驶证需在有效期满前90天内向车管所申请换证否则开车上路将被定性为“无证驾驶”今天就为大家准...【详细内容】
2024-04-03    济南车管  Tags:驾驶证   点击:(4)  评论:(0)  加入收藏
租赁车如何使用12123 APP处理违法 官方指南来了
快科技4月2日消息,对于租车的用户来说,租赁期间出现交通违章的话,需要携带租赁车辆行驶证前往当地交管部门处理违章,十分不便。为此,公安部于去年9月份推行了“租赁车交通违法处...【详细内容】
2024-04-03    快科技  Tags:租赁车   点击:(5)  评论:(0)  加入收藏
手把手教你如何修改12123APP的联系方式
输入新手机号→发送验证码并输入→确认信息点击确定。注意啦!如果密码忘记无法正常登录需要进行以下操作找回密码手机号正常使用密码忘记的情况如果手机号正常使用,交...【详细内容】
2024-03-30    济南车管  Tags:12123   点击:(3)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
站内热门
站内头条