本文介绍一篇注意力图神经网络用于停车位检测论文,论文已收录于 RA-L2021。在之前的基于卷积神经网络的停车位检测方法中,很少考虑停车位标记点之间的关联信息,从而导致需要复杂的后处理。在本文中,作者将环视图中的标记点看作图结构数据,使用图神经网络聚合相邻的标记点信息,不需要任何后处理,可以端到端训练。在ps2.0 和 PSV 停车位数据集上都取得了最优的检测性能。
论文链接为:https://arxiv.org/pdf/2104.02576.pdf
项目链接为:https://github.com/Jiaolong/gcn-parking-slot
1. Method
1.1 Overview
本文提出的基于注意力图神经网络停车位检测模型结构如下图所示,由三部分组成:Graph feature encoder,Graph feature aggregation,Entrance line discriminator。停车位一般由四个标记点组成 ( P 1 , P 2 , P 3 , P 4 ) (P_1,P_2,P_3,P_4)(P1, P2, P3, P4) (四个顶点按照逆时针排序);因此停车位检测问题可以描述为检测车位进入线上顶点 (P_1,P_2) 的问题。本文提出的停车位检测流程为:
- 给定一张环视图 I ∈ R , R 的维度是 H × W × 3,首先使用卷积神经网络进行特征提取。 然后标记点检测器检测标记点,标记点编码网络提取标记点特征。
- 接着使用注意力图神经网络推理标记点之间的关系,本文设计的图神经网络为全连接网络,其中每一个点表示为标记点。
- 最后,使用车位进入线性判别器决定两个标记点是否可以形成一个有效的车位进入线。
1.2 Graph Feature Encoder
标记点检测器输出为 S × S × 3 的特征图,其中通道 3 包含标记点位置 ( x , y ) 和置信度 c 。在使用极大值抑制(NMS)后会得到 N 个标记点。
标记点特征编码器包含 4 个卷积层,输出特征图为 S × S × 64 。对于检测到的 N 个标记点位置 P = ( x , y ) ∈ $R^{N\times 2}$ ,使用双线性插值计算标记点特征。最终得到标记点特征 F ∈ $R^{N × 64}$ 。这里特征图大小 S = 16。
为了增强特征表示,将标记点位置和特征进行融合:
$ v_i = f_i + MLP(x_i, y_i)$,其中$f_i$为最初标记点特征。
1.3 Graph Feature Aggregation
融合后的标记点特征集合 $V$, 构造 一个全连接的图神经网络 $G = (V, E)$, 其中 $V$表示$N$个节点$(x_i),$E$表示 $N\times N$条边。图神经网络每一层标记点特征更新
方法为:
$x_{i}^{l+1} = x_{i}^{l} + MLP([x_{i}^{l}||m^{l}_{E_{i} \rightarrow i}])$