强化学习遇到自动驾驶

目录显示

key words: reinforcement learning autonomous vehicle driving

1. Reinforcement Learning

JMRL

Temporal Abstraction in Reinforcement Learning with the Successor Representation
- 在时间抽象的多个层次上进行推理是智能的关键属性之一。在强化学习中，这通常通过称为选项的时间扩展动作过程来建模。选项允许代理做出预测并在环境中的不同抽象级别上运行。然而，基于选项框架的方法通常从假设一组合理的选项是事先已知的开始。如果不是这种情况，则没有关于应该考虑哪些选项的明确答案。在本文中，我们认为可以将基于状态访问模式对状态进行编码的后继表示视为发现和使用时间抽象的自然基础。为了支持我们的主张，我们对最近的结果进行了全面的了解，展示了如何使用后继表示来发现有助于时间扩展探索或规划的选项。我们将这些结果作为选项发现的一般框架的实例化，其中代理的表示用于识别有用的选项，然后用于进一步改进其表示。这导致了一个良性的、永无止境的循环，在这个循环中，表示和选项不断地相互完善。除了选项发现本身，我们还讨论了后继表示如何允许我们在不进行额外学习的情况下将一组选项扩充为一个组合的大型对应项。这是通过结合先前学习的选项来实现的。我们的实证评估侧重于为时间扩展探索发现的选项以及使用后继表示将它们组合起来。我们的结果阐明了选项定义中涉及的重要设计决策，并展示了基于后继表示的不同方法的协同作用，例如本征选项和选项键盘。
Necessary and Sufficient Conditions for Inverse Reinforcement Learning of Bayesian Stopping Time Problems
- 本文介绍了贝叶斯停止时间问题的逆强化学习 (IRL) 框架。通过观察贝叶斯决策者的行为，我们提供了一个必要且充分的条件来确定这些行为是否与优化成本函数一致。在贝叶斯（部分观察到的）设置中，逆学习器最多只能识别观察到的策略的最优性。我们的 IRL 算法识别最优性，然后构建成本函数的集值估计。为了实现这一 IRL 目标，我们使用了源自微观经济学的贝叶斯揭示偏好的新颖想法。我们使用停止时间问题的两个重要示例来说明所提出的 IRL 方案，即顺序假设检验和贝叶斯搜索。作为一个真实世界的例子，我们使用包含来自 190000 个视频的元数据的 YouTube 数据集来说明所提出的 IRL 方法如何高精度地预测在线多媒体平台中的用户参与度。最后，对于有限数据集，我们提出了一种 IRL 检测算法，并给出了其错误概率的有限样本界限。
Reinforcement Learning for Joint Optimization of Multiple Rewards
- 寻找最大化马尔可夫决策过程的长期回报的最优策略需要使用动态规划和反向归纳来求解贝尔曼最优方程。然而，许多现实世界的问题需要优化在累积奖励方面是非线性的目标，动态规划不能直接应用于这些目标。例如，在资源分配问题中，目标之一是最大化用户之间的长期公平性。我们注意到，当代理人旨在优化奖励总和的某些功能时，问题就失去了马尔可夫性质。本文解决并形式化了优化长期平均奖励的非线性函数的问题。我们提出了基于模型和无模型的算法来学习策略，其中基于模型的策略被证明可以实现 K 目标的 \TildeO(LKDSAT−−√) 与凹 L-Lipschitz 函数相结合的遗憾。此外，以蜂窝基站调度和排队系统调度中的公平性为例，所提出的算法显着优于传统的 RL 方法。
Can Reinforcement Learning Find Stackelberg-Nash Equilibria in General-Sum Markov Games with Myopically Rational Followers?
- 我们研究了多人一般和马尔可夫博弈，其中一名玩家被指定为领导者，其他玩家被视为跟随者。特别是，我们关注追随者是近视理性的游戏类别；也就是说，他们的目标是最大化他们的即时奖励。对于这样的博弈，我们的目标是找到 Stackelberg-Nash 均衡 (SNE)，这是一个策略对 (π∗,ν∗) 使得： (i) π∗ 是领导者的最优策略，当跟随者总是发挥他们的最佳反应，并且 (ii) ν∗ 是追随者的最佳反应策略，这是由 π∗ 诱导的追随者博弈的纳什均衡。我们开发了样本有效的强化学习 (RL) 算法，用于解决在线和离线设置中的 SNE。我们的算法是最小二乘值迭代的乐观和悲观变体，它们很容易将函数逼近工具结合到大状态空间的设置中。此外，对于线性函数逼近的情况，我们证明我们的算法分别在在线和离线设置下实现次线性后悔和次优。据我们所知，我们建立了第一个可证明有效的 RL 算法，用于解决具有近视理性追随者的一般和马尔可夫游戏中的 SNE。

Artificial Intelligence

(2023)Risk-aware controller for autonomous vehicles using model-based collision prediction and reinforcement learning
- 自动驾驶汽车 (AV) 有可能挽救数百万人的生命并提高运输服务的效率。然而，AV 的成功部署需要应对与建模和安全认证相关的多项挑战。最先进的决策方法通常依赖于端到端学习或模仿学习方法，这些方法仍然存在重大安全风险。因此，有必要使用能够更好地预测和处理危险情况的具有风险意识的自动驾驶汽车。此外，当前的方法由于依赖端到端的深度学习而往往缺乏可解释性，其中不能保证从数据中学习到重要的因果关系。本文介绍了一种新颖的风险感知框架，用于使用定制的碰撞预测模型和强化学习 (RL) 来训练 AV 代理。碰撞预测模型基于高斯过程和车辆动力学，用于生成 RL 状态向量。使用显式风险模型增加了 AV 代理的事后可解释性，这对于达到和证明 AV 和其他安全敏感应用程序所需的高安全级别至关重要。使用模拟器和最先进的 RL 算法获得的实验结果表明，风险感知 RL 框架将平均碰撞率降低了 15%，使 AV 对突然紧急制动情况更加稳健，并在安全性和与基于规则的标准方法（智能驾驶员模型）相比时的速度。此外，所提出的碰撞预测模型优于文献中的其他模型。
(2021)A survey of inverse reinforcement learning: Challenges, methods and progress
- 逆向强化学习 (IRL) 是在给定策略或观察到的行为的情况下推断代理的奖励函数的问题。类似于 RL，IRL 被视为一个问题和一类方法。通过对 IRL 的现有文献进行分类调查，本文可为机器学习的研究人员和从业者以及机器学习的新手提供全面的参考，以了解 IRL 的挑战并选择最适合手头问题的方法。该调查正式介绍了 IRL 问题及其核心挑战，例如执行准确推理的困难及其普遍性、对先验知识的敏感性以及解决方案复杂性随问题规模的不成比例增长。本文调查了大量基础方法，这些方法按其目标的共性组合在一起，并阐述了这些方法如何缓解挑战。我们进一步讨论了传统 IRL 方法的扩展，用于处理不完美的感知、不完整的模型、学习多个奖励函数和非线性奖励函数。本文以对研究领域的一些广泛进展和当前未解决的研究问题的讨论结束了调查。

CVPR

2023

(2023)Local-guided Global: Paired Similarity Representation for Visual Reinforcement Learning
(2023)Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second
(2023)Fusing Pre-trained Language Models with Multimodal Prompts through Reinforcement Learning
(2023)Frustratingly Easy Regularization on Representation Can Boost Deep Reinforcement Learning
(2023)Reinforcement Learning-Based Black-Box Model Inversion Attacks
- 模型反转攻击是一种隐私攻击，仅通过访问模型即可重建用于训练机器学习模型的私有数据。最近，利用生成对抗网络（GAN）从公共数据集中提取知识的白盒模型反转攻击因其出色的攻击性能而受到极大关注。另一方面，当前利用 GAN 的黑盒模型反转攻击存在诸如无法保证在预定的查询访问次数内完成攻击过程或达到与白盒攻击相同的性能水平等问题。为了克服这些限制，我们提出了一种基于强化学习的黑盒模型反转攻击。我们将潜在空间搜索制定为马尔可夫决策过程 (MDP) 问题，并通过强化学习解决。我们的方法利用生成图像的置信度分数来为代理人提供奖励。最后，可以使用在 MDP 中训练的代理找到的潜在向量来重建私有数据。各种数据集和模型的实验结果表明，我们的攻击通过实现最先进的攻击性能成功地恢复了目标模型的私有信息。我们通过提出更高级的黑盒模型反转攻击来强调隐私保护机器学习研究的重要性。
(2023)Co-speech Gesture Synthesis by Reinforcement Learning with Contrastive Pre-trained Rewards
- 在本次录取的工作中，华为研究团队主要围绕语音驱动数字人手势生成进行研究。语音手势生成本质上是一个 "多对多 "的问题，而目前业界开发出了一些先进的数据驱动数字人生成模型，仍然难以处理语音音频和手势之间的复杂关系。此外，为了保证整体的流畅性和一致性，必须同时考虑到上下文信息和打出手势时的后续效果。因此，手势合成是一个连续的决策问题，而不是演讲和手势之间的简单匹配。为解决上述问题，华为研究团队提出了一种基于强化学习的演讲数字人手势生成方法RACER。RACER由三部分组成，以离线方式进行训练，并用于实时手势生成。首先，为了从无限的动作空间中提取有意义的手势，RACER采用了VQ-VAE模型来学习紧凑的手势表示，这大大减少了动作空间。第二，构建一个基于GPT的模型的Q值网络，该模型在生成手势的一致性序列方面具有天然的优势。第三，受对比语言-图像预训练（CLIP）方法的启发，RACER提出一种对比性语音-手势预训练方法来计算奖励（Reward）。该奖励评估能够将上下文信息整合到动作评估中，并引导强化学习智能体探索语音和手势之间的复杂关系。在两个数据集上的实验结果表明，RACER在客观指标和人类主观判断方面都优于现有的方法。这证明了强化学习在语音手势合成任务中的优势和潜力。

2022

(2022)Temporal Complementarity-Guided Reinforcement Learning for Image-to-Video Person Re-Identification
- 图像到视频的行人重识别旨在从基于视频的图库集中检索与基于图像的查询相同的行人。现有方法将其视为跨模态检索任务，并从图像和视频模态中学习常见的潜在嵌入，但由于模态差距大和利用所有视频帧进行冗余特征学习，这些方法的有效性和效率都较低。在这项工作中，我们首先将此任务视为与人类决策过程相同的点到集匹配问题，并提出了一种新颖的时间互补引导强化学习 (TCRL) 方法，用于图像到视频的人物再识别。 TCRL采用深度强化学习从图库视频中动态选择合适数量的帧进行顺序判断，并通过查询图像的引导在这些帧之间积累足够的时间互补信息，以平衡效率和准确性。具体来说，TCRL 将点到集匹配过程制定为马尔可夫决策过程，其中顺序判断代理在每个时间步测量查询图像与所有历史帧之间的不确定性，并验证是否积累了足够的补充线索进行判断（相同或 different）或多一帧来辅助判断。此外，TCRL 维护一个带有互补残差检测器的顺序特征提取模块，以动态抑制冗余显着区域，并在这些选定帧中彻底挖掘各种互补线索，以增强帧级表示。广泛的实验证明了我们方法的优越性。
(2022)DECORE: Deep Compression With Reinforcement Learning
- 深度学习已成为现代模式识别系统越来越流行和强大的方法。然而，许多深度神经网络具有数百万或数十亿个参数，由于内存大小或延迟要求的限制，使其无法用于现实世界的应用程序。因此，深度学习方法的广泛采用通常需要高效的网络压缩技术。我们介绍了 DECORE，一种基于强化学习的方法来自动化网络压缩过程。 DECORE 为网络中的每个通道分配一个代理，并使用轻策略梯度方法来了解要保留或删除哪些神经元或通道。网络中的每个代理只有一个参数（保留或丢弃）要学习，与现有方法相比，这导致训练过程更快。 DECORE 还在各种网络架构和各种数据集上提供了最先进的压缩结果。例如，在 ResNet-110 架构上，与基线模型相比，DECORE 实现了 64.8% 的压缩率和 61.8% 的 FLOPs 减少，而 CIFAR-10 数据集没有任何重大精度损失。它可以将像 VGG 网络这样的常规架构的大小减少高达 99%，而准确率只有 2.28% 的小幅下降。对于像 ImageNet 这样更大的数据集，它可以将 ResNet-50 架构压缩 44.7%，并将 FLOP 减少 42.3%，而未压缩模型的 Top-5 精度仅下降 0.69%。我们还展示了 DECORE 可用于搜索基于各种约束（例如内存和 FLOP）的压缩网络架构。
(2021)Combining Semantic Guidance and Deep Reinforcement Learning for Generating Human Level Paintings
- 基于笔划的非真实感图像的生成是计算机视觉社区中的一个重要问题。作为朝这个方向的努力，最近的大量研究工作集中在以类似于人类画家的方式教机器“如何绘画”。然而，以前方法的适用性仅限于前景对象的位置、比例和显着性变化很小的数据集。因此，我们发现这些方法难以涵盖真实世界图像所具有的粒度和多样性。为此，我们提出了一个语义指导管道，其中 1) 一个双层绘画程序，用于在训练时学习前景和背景笔触之间的区别。 2）我们还通过神经对齐模型引入前景对象的位置和比例不变性，该模型以端到端的方式结合对象定位和空间变换网络，以放大特定的语义实例。 3）然后通过最大化基于聚焦奖励的新型引导反向传播来放大聚焦对象的显着特征。拟议的代理不需要对人类笔划数据进行任何监督，并成功处理了前景对象属性的变化，因此，为 CUB-200 Birds 和 Stanford Cars-196 数据集生成质量更高的画布。最后，我们通过评估我们的方法在具有挑战性的 Virtual-KITTI 数据集上的扩展，证明了我们的方法在具有多个前景对象实例的复杂数据集上的进一步有效性。源代码和模型可在 https://github.com/1jsingh/semantic-guidance 获得。
(2021)Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning
- 在本文中，我们正在解决提议自由引用表达式基础任务，旨在根据查询语句定位目标对象，而不依赖于现成的对象提议。现有的无建议方法采用查询图像匹配分支来选择图像特征图中得分最高的点作为目标框中心，其宽度和高度由另一个分支预测。然而，这些方法未能利用目标和参考对象之间的上下文关系，并且在其推理过程中缺乏可解释性。为了解决这些问题，我们提出了一种迭代收缩机制来定位目标，其中收缩方向由强化学习代理决定，并综合考虑当前图像块中的所有内容。此外，顺序收缩过程能够证明关于如何迭代找到目标的推理。实验表明，与 RefCOCOg 数据集上的先前最先进 (SOTA) 方法相比，所提出的方法提高了 4.32% 的准确性，其中查询语句长而复杂，许多目标被其他参考对象引用。
(2021)ReAgent: Point Cloud Registration Using Imitation and Reinforcement Learning
- 点云配准是许多 3D 计算机视觉任务中的常见步骤，例如对象姿态估计，其中 3D 模型与观察对齐。经典配准方法可以很好地泛化到新领域，但在给出嘈杂的观察或错误的初始化时会失败。相比之下，基于学习的方法更健壮，但缺乏泛化能力。我们建议将迭代点云配准视为强化学习任务，并为此提出一种新颖的配准代理 (ReAgent)。我们采用模仿学习来根据稳定的专家策略初始化其离散配准策略。基于我们提出的对齐奖励，与策略优化的集成进一步提高了代理的配准性能。我们在 ModelNet40（合成）和 ScanObjectNN（真实数据）上将我们的方法与经典和基于学习的配准方法进行了比较，并表明我们的 ReAgent 达到了最先进的准确性。此外，与相关方法相比，代理的轻量级架构可以缩短推理时间。
(2020)End-to-End Model-Free Reinforcement Learning for Urban Driving using Implicit Affordances
- Marin Toromanoff, Emilie Wirbel, Fabien Moutarde
- Key: implicit affordance, reinforcement learning, data efficiency
- Env: CARLA , TORCS
- 强化学习 (RL) 旨在从自己的实验中学习最佳行为策略，而不是基于规则的控制方法。然而，目前还没有 RL 算法能够处理像城市驾驶这样困难的任务。我们提出了一种新技术，创造了隐性可供性，以有效地利用 RL 进行城市驾驶，包括车道保持、行人和车辆避让以及交通灯检测。据我们所知，我们是第一个提出成功的 RL 代理来处理如此复杂的任务，尤其是在交通灯检测方面。此外，我们通过赢得 CARLA 挑战的 Camera Only 赛道证明了我们方法的有效性。

ICCV (2021)

End-to-End Urban Driving by Imitating a Reinforcement Learning Coach
- Zhejun Zhang, Alexander Liniger, Dengxin Dai, Fisher Yu, Luc Van Gool
- Key: imitation learning, reinforcement learning
- Env: CARLA
- 自动驾驶的端到端方法通常依赖于专家演示。尽管人类是优秀的驾驶员，但对于需要密集的在线策略监督的端到端算法而言，他们并不是好的教练。相反，利用特权信息的自动化专家可以有效地生成大规模的政策内和政策外演示。然而，现有的城市驾驶自动化专家大量使用手工制定的规则，即使在可以获得地面实况信息的驾驶模拟器上也表现不佳。为了解决这些问题，我们培训了一名强化学习专家，将鸟瞰图图像映射到连续的低级动作。在为 CARLA 设置新的性能上限的同时，我们的专家也是更好的教练，为模仿学习代理提供信息监督信号以供学习。在我们的强化学习教练的监督下，具有单目摄像头输入的基线端到端代理实现了专家级的性能。我们的端到端代理实现了 78% 的成功率，同时在 NoCrash-dense 基准和更具挑战性的 CARLA LeaderBoard 上的最先进性能上推广到新城镇和新天气。
Learning to drive from a world on rails
- Dian Chen, Vladlen Koltun, Philipp Krähenbühl
- Key: model-based, offline reinforcement learning, policy distillation
- Env: CARLA
- 我们通过基于模型的方法从预先记录的驾驶日志中学习基于视觉的交互式驾驶策略。世界的正向模型监督预测任何潜在驾驶轨迹结果的驾驶政策。为了支持从预先记录的日志中学习，我们假设世界在轨道上，这意味着代理及其行为都不会影响环境。该假设极大地简化了学习问题，将动力学分解为非反应性世界模型和自我车辆的低维紧凑正向模型。我们的方法使用贝尔曼方程的表格动态规划评估来计算每个训练轨迹的动作值；这些行动价值反过来监督最终的基于视觉的驾驶政策。尽管存在轨道上的世界假设，但最终的驾驶策略在动态和反应性世界中表现良好。它在具有挑战性的 CARLA NoCrash 基准测试中优于模仿学习以及基于模型和无模型的强化学习。在 ProcGen 基准测试中，它在导航任务上的样本效率也比最先进的无模型强化学习技术高出一个数量级。
MEDIRL: Predicting the Visual Attention of Drivers via Maximum Entropy Deep Inverse Reinforcement Learning
- Sonia Baee, Erfan Pakdamanian, Inki Kim, Lu Feng, Vicente Ordonez, Laura Barnes
- [pdf] [supp] [arXiv]
- 受人类视觉注意力的启发，我们提出了一种新的逆强化学习公式，使用最大熵深度逆强化学习 (MEDIRL) 来预测驾驶员在事故多发情况下的视觉注意力。 MEDIRL 通过从细心的驾驶员记录的眼睛注视模式中学习任务敏感的奖励函数来预测导致最大奖励的注视位置。此外，我们还介绍了 EyeCar，这是一种用于事故多发情况下的新驾驶员注意力数据集。我们进行了综合实验，以在三个常见基准（DR(eye)VE、BDD-A、DADA-2000）和我们的 EyeCar 数据集上评估我们提出的模型。结果表明，MEDIRL 在预测注意力方面优于现有模型，并达到了最先进的性能。我们提出了广泛的消融研究，以提供对我们提出的模型的不同特征的更多见解。

T-PAMI (2022)

MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning
- Quanyi Li, Zhenghao Peng, Lan Feng, Qihang Zhang, Zhenghai Xue, Bolei Zhou
- Key : reinforcement learning, procedural generation, real data import
- Env: MetaDrive
- 安全驾驶需要人类和智能代理的多种能力，例如对看不见的环境的泛化能力、周围交通的安全意识以及复杂的多代理设置中的决策制定。尽管强化学习 (RL) 取得了巨大成功，但由于缺乏集成环境，大多数 RL 研究工作都分别研究了每种能力。在这项工作中，我们开发了一个名为 MetaDrive 的新驾驶模拟平台，以支持机器自主的可推广强化学习算法的研究。 MetaDrive 是高度组合的，它可以从程序生成和真实数据导入中生成无数不同的驾驶场景。基于 MetaDrive，我们在单代理和多代理设置中构建了各种 RL 任务和基线，包括跨未见过场景的基准通用性、安全探索和学习多代理流量。对程序生成的场景和真实场景进行的泛化实验表明，增加训练集的多样性和规模可以提高 RL 代理的泛化能力。我们进一步评估了 MetaDrive 环境中的各种安全强化学习和多代理强化学习算法，并提供了基准。源代码、文档和演示视频可在此获得。

ECCV (2022)

CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action Recognition
- Shreyank N Gowda, Laura Sevilla-Lara, Frank Keller, Marcus Rohrbach
- [pdf] [supplementary material] [DOI]
Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting Annotated Bounding Boxes via Reinforcement Learning
- Jingqun Tang, Wenming Qian, Luchuan Song, Xiena Dong, Lan Li, Xiang Bai
- [pdf] [supplementary material] [DOI]
StARformer: Transformer with State-Action-Reward Representations for Visual Reinforcement Learning
- Jinghuan Shang, Kumara Kahatapitiya, Xiang Li, Michael S. Ryoo
- [pdf] [supplementary material] [DOI]
Style-Agnostic Reinforcement Learning
- Juyong Lee, Seokjun Ahn, Jaesik Park
- [pdf] [supplementary material] [DOI]

ICLR(2023)

NIPS(2022)

IJCAI (2023)

Causal Deep Reinforcement Learning using Observational Data
Controlling Neural Style Transfer with Deep Reinforcement Learning
A Low Latency Adaptive Coding Spike Framework for Deep Reinforcement Learning

ICRA (2022)

Driving in Dense Traffic with Model-Free Reinforcement Learning
- Dhruv Mauria Saxena, Sangjae Bae, Alireza Nakhaei, Kikuo Fujimura, Maxim Likhachev
- Key: reinforcement learning, model free, dense traffic
- Env: Automotive Driving Models
- 传统的规划和控制方法可能无法为自动驾驶汽车找到可行的轨迹以在道路上的密集交通中执行。这是因为在这些场景中，车辆可以通过的时空无障碍体积非常小。然而，这并不意味着这项任务是不可行的，因为众所周知，人类司机能够通过利用其他司机的合作来拉开差距，从而在密集的交通中行驶。传统方法没有考虑到代理人采取的行动会影响道路上其他车辆的行为这一事实。在这项工作中，我们依靠深度强化学习的能力来对此类交互进行隐式建模，并学习对自动驾驶汽车动作空间的连续控制策略。我们考虑的应用程序需要我们的代理协商并在道路上打开一个缺口，以便成功合并或改变车道。我们的政策学会了反复探索目标车道，同时试图找到一个安全的地方进入。我们比较了两种基于模型预测控制的算法，表明我们的策略在模拟中优于它们。作为这项工作的一部分，我们引入了一个在密集交通中驾驶的基准，供社区使用。
Improving Safety in Deep Reinforcement Learning Using Unsupervised Action Planning
- 深度强化学习（深度 RL）的主要挑战之一是确保训练和测试阶段的安全。在这项工作中，我们提出了一种新的无监督行动计划技术，以提高基于策略强化学习算法的安全性，例如信任域策略优化 (TRPO) 或近端策略优化 (PPO)。我们通过将代理人从危险情况中解救出来的所有“恢复”动作历史存储到一个单独的“安全”缓冲区中，并在代理人遇到类似状态时找到最佳恢复动作来设计我们的安全意识强化学习。因为此功能需要算法查询相似状态，所以我们使用无监督学习算法 k-means 聚类来实现所提出的安全机制。我们在涵盖导航和操纵的六个机器人控制任务上评估了所提出的算法。我们的结果表明，与离散和连续控制问题中的多个基线相比，所提出的安全 RL 算法可以获得更高的回报。
Deep Drifting: Autonomous Drifting of Arbitrary Trajectories Using Deep Reinforcement Learning
- 在本文中，深度神经网络使用强化学习进行训练，以便在由一系列路点定义的任意轨迹上漂移。第一步，在训练过程中使用高度精确的车辆模拟。然后，将获得的策略在自建模型车上进行细化和验证。所选择的奖励函数的灵感来自于现实生活中漂移比赛的计分过程。它保持简单，因此适用于非常一般的场景。实验结果表明，一个相对较小的网络，仅给定少量测量和控制输入，已经取得了出色的性能。在仿真中，学习到的控制器能够可靠地保持稳态漂移。此外，它能够泛化到任意的、以前未知的轨迹和不同的驾驶条件。将学习到的控制器转移到模型车后，它在物理约束条件下的表现也出奇地好。
Deep Reinforcement Learning Based Game-Theoretic Decision-Making for Autonomous Vehicles
- 本文提出了一种结合深度强化学习实施博弈论决策的方法，允许车辆通过使用 2D 激光雷达获得对环境的观察来在无信号交叉口做出决策。这项工作的主要新颖之处在于在复杂的交互场景中同时对多辆车进行建模，作为具有保守、激进和自适应驾驶行为的决策者。游戏模型允许在不使用任何特定协调或车辆对车辆通信的情况下预测其他车辆对自我车辆运动的反应。游戏的解决方案基于认知层次推理，它使用深度强化学习算法在现实模拟器（ROS-Gazebo）中获得针对特定目标的近最优策略。训练好的模型经过训练后在模拟器上测试成功。实验表明，真实世界中实验室汽车的性能与模拟环境中的性能是一致的，这对于提高自动驾驶汽车的安全性以及降低其对道路测试的依赖性具有重要意义。
TRC: Trust Region Conditional Value at Risk for Safe Reinforcement Learning
- 由于安全性在机器人技术中至关重要，因此反映安全性的强化学习（称为安全 RL）已得到广泛研究。在安全 RL 中，我们的目标是找到一种策略，在满足定义的安全约束的同时最大化期望回报。存在各种类型的约束，其中对条件风险价值 (CVaR) 的约束有效地降低了高成本的可能性，因为 CVaR 是在某个百分位以上获得的条件期望。在本文中，我们提出了一种具有 CVaR 约束的基于信任区域的安全 RL 方法，称为 TRC。我们首先导出 CVaR 的上限，然后在置信域中以可微形式逼近上限。使用这个近似值，制定了一个获取策略梯度的子问题，并通过迭代求解子问题来训练策略。 TRC 通过各种机器人模拟中的安全导航任务和 Clearpath 的 Jackal 机器人模拟到真实环境进行评估。与其他安全 RL 方法相比，性能提高了 2.15 倍，同时所有实验都满足约束条件。
Action-aware Driving Caption Transformer (2023)
- end-to-end自动驾驶在交通行业具有巨大潜力。然而，自动决策过程缺乏透明度和可解释性阻碍了其在实践中的工业应用。早期已经有一些尝试使用注意力图或成本量来获得更好的模型可解释性，这对于普通乘客来说是难以理解的。为了弥合差距，我们提出了一种基于端到端转换器的架构 ADAPT（动作感知驾驶字幕转换器），它为自主车辆控制和动作的每个决策步骤提供用户友好的自然语言叙述和推理。 ADAPT 通过共享视频表示联合训练驾驶字幕任务和车辆控制预测任务。 BDD-X（Berkeley DeepDriveeXplanation）数据集上的实验展示了 ADAPT 框架在自动度量和人工评估方面的最新性能。为了说明所提出的框架在实际应用中的可行性，我们构建了一个新颖的可部署系统，该系统将原始汽车视频作为输入并实时输出动作叙述和推理。代码、模型和数据可在 https://github.com/jxbbb/ADAPT 获得.

Others

Explaining Autonomous Driving by Learning End-to-End Visual Attention
- Luca Cultrera, Lorenzo Seidenari, Federico Becattini, Pietro Pala, Alberto Del Bimbo
- Key: reinforcement learning, attention, multi-head network
- Env: CARLA
- 目前基于深度学习的自动驾驶方法产生了令人印象深刻的结果，也导致在某些受控场景中进行生产部署。最流行和最吸引人的方法之一依赖于直接从传感器感知的数据中学习车辆控制。这种端到端的学习范式可以应用于经典的监督设置和使用强化学习。尽管如此，与其他学习问题一样，这种方法的主要缺点是缺乏可解释性。事实上，深度网络将充当黑匣子，根据先前看到的驾驶模式输出预测，而不会就做出此类决定的原因提供任何反馈。虽然要获得最佳性能，从学习代理获得可解释的输出并不重要，尤其是在这样一个安全关键领域，但了解网络的行为方式至关重要。这与解释此类系统的故障特别相关。在这项工作中，我们建议训练一个配备注意力模型的基于模仿学习的代理。注意力模型使我们能够了解图像的哪一部分被认为是最重要的。有趣的是，注意力的使用还导致使用 CARLA 驾驶模拟器在标准基准测试中表现出色。

research_of_Decision-Making for Autonomous Driving

IEEE Reinforcement Learning in Autonomous Driving/Vehicle

(2023)Identify, Estimate and Bound the Uncertainty of Reinforcement Learning for Autonomous Driving (transactions on intelligent transportation systems)
- 深度强化学习 (DRL) 已成为开发更智能的自动驾驶汽车 (AV) 的一种很有前途的方法。 AV 上的典型 DRL 应用是训练基于神经网络的驾驶策略。然而，神经网络的黑盒性质可能会导致不可预测的决策失败，从而使此类 AV 变得不可靠。为此，这项工作提出了一种方法来识别和保护 DRL 驾驶策略的不可靠决策。基本思想是估计和约束策略的性能不确定性，量化由于训练数据不足或网络拟合错误导致的潜在性能下降。通过限制不确定性，DRL 模型的性能始终优于基线策略。数据不足引起的不确定性采用bootstrapped方法进行估计。然后，使用集成网络估计由网络拟合误差引起的不确定性。最后，添加基线策略作为性能下限以避免潜在的决策失败。整个框架称为不确定性约束强化学习 (UBRL)。以无保护左转驾驶案例为例，对具有不同训练数据量的 DRL 策略评估了拟议的 UBRL。结果表明，UBRL 方法可以识别 DRL 策略的潜在不可靠决策。即使 DRL 策略没有经过良好训练且具有很高的不确定性，UBRL 也保证优于基线策略。同时，UBRL 的性能随着训练数据的增加而提高。这种方法对于实际道路驾驶的 DRL 应用很有价值，并提供了评估 DRL 策略的指标。
(2023)Autonomous Vehicle Driving Path Control with Deep Reinforcement Learning
- 自动驾驶汽车 (AV) 使用人工智能 (AI) 技术来控制车辆，无需人工干预。与人类驾驶车辆相比，自动驾驶汽车的实施具有优势，例如减少因人为失误造成的道路交通死亡、提高交通效率和最大限度地减少碳排放以保护环境。本文的主要目标是开发一种 AV，它可以在跟随前车时保持安全距离并保持在道路中心线。提议的用于自动驾驶模拟的深度强化学习 (DRL) 算法是深度确定性策略梯度 (DDPG)。在本文中，创建了路径跟踪控制、奖励函数、演员网络和评论家网络的 DDPG 模型。 DDPG 智能体一直训练到收到 1650 集奖励为止。训练结束后，对所提出的 DDPG 代理进行了仿真以验证其性能。然后，调整 mini-batch size 和 actor learning rate 这两个超参数的值以获得最短的训练时间。
(2021)Reinforced Curriculum Learning For Autonomous Driving In Carla
- 自动驾驶汽车有望以更安全、更方便、甚至更高效的方式运送人员。如今，现实世界中的自动驾驶汽车是由大公司的大型团队投入大量工程精力打造的。在没有领域专家的情况下，可以使用深度强化学习来学习端到端的驾驶策略。在这里，我们将课程学习与深度强化学习相结合，以便在没有任何先验领域知识的情况下学习 CARLA 自动驾驶模拟器的端到端竞争性驾驶策略。据我们所知，这是第一项在 CARLA 提供的所有城镇场景中提供我们的驾驶政策一致结果的工作。此外，我们指出了强化学习中的两个重要问题：前者是关于以稳定的方式学习价值函数，而后者与标准化学习到的优势函数有关。提供了解决这些问题的建议。
(2021)A Hierarchical Autonomous Driving Framework Combining Reinforcement Learning and Imitation Learning
- 自动驾驶技术旨在根据有关车辆环境的信息做出驾驶决策。与高速公路、停车场等相对简单的场景相比，城市场景下的导航自动驾驶场景更为复杂，是一个需要时间探索的课题。基于监督学习方法的模仿学习模型受到收集的专家数据量的限制。基于强化学习方法的模型能够与环境交互，但数据效率低下，需要大量探索才能学习有效的策略。我们提出了一种将模仿学习与强化学习相结合的方法，使代理能够在城市自动驾驶导航场景中获得更高的成功率。为了解决强化学习数据效率低下的问题，我们的方法将动作空间分解为低级动作空间和高级动作空间，其中低级动作空间是多个预训练的模仿学习动作空间是几个预训练的组合 -基于不同控制信号（即跟随、直行、右转、左转）训练的模仿学习动作空间。高级动作空间包含不同的控制信号，代理通过基于 DQN 的强化学习方法从高级动作空间中选择控制信号来执行特定的模仿学习策略。此外，我们为高级动作选择提出了新的奖励。 CARLA 驾驶基准测试表明，我们的方法在各种基于导航的驾驶任务上优于模仿学习方法和强化学习方法。
(2022)DQN-based Reinforcement Learning for Vehicle Control of Autonomous Vehicles Interacting With Pedestrians
- 近年来，自动驾驶汽车 (AV) 已成为热门的研究课题，因为它们能够通过减少交通事故和人身伤害来提高道路安全。车辆控制是自动驾驶最重要的部分，它在行驶过程中调整 AV 的转向角和速度。最近，车辆控制使用有效的人工智能 (AI)，尤其是深度学习 (DL) 技术取得了相应的进展。最近的工作仅限于使用强化学习 (RL) 技术来控制 AV 仅遵循其路径，而不考虑其他道路使用者，尤其是行人。在本文中，我们提出了一种基于强化学习的新型模型，该模型使用深度 Q 网络在涉及车辆和行人的复杂场景中控制 AV。 AV 学习几种动作的策略，以便在不与其他道路参与者发生事故的情况下到达目的地。我们的方法使用 CARLA 模拟器进行了测试和验证。我们的结果表明，随着时间的推移，所提出的方法在平均奖励、成功率和碰撞率方面取得了更好的性能。
(2018)Highway Traffic Modeling and Decision Making for Autonomous Vehicle Using Reinforcement Learning
- 本文研究了自动驾驶汽车在交通中的决策问题。我们将自动驾驶汽车与环境之间的相互作用建模为随机马尔可夫决策过程 (MDP)，并将经验丰富的驾驶员的驾驶风格视为要学习的目标。 MDP 模型中考虑了道路几何形状，以纳入更多不同的驾驶风格。通过设计 MDP 的奖励函数，使用强化学习获得自动驾驶汽车的理想驾驶行为。模拟结果证明了自动驾驶汽车的理想驾驶行为。
(2022)Analysis of Reinforcement Learning in Autonomous Vehicles
- 本文着眼于自动驾驶汽车的运行机制：尤其是强化学习。 Waymo、特斯拉和通用汽车等公司使用的机器学习技术使他们能够生产高端自动驾驶系统。本文回顾了这些公司使用的强化学习技术和算法，并针对他们的大多数车辆所面临的问题提出了替代解决方案。此外，本文还深入分析了自动驾驶汽车使用的 Q 学习技术。
(2022)Learning to Drive Like Human Beings: A Method Based on Deep Reinforcement Learning
- 在本文中，通过学习像人类一样驾驶，提出了一种新的路径跟踪框架。首先，通过学习专业驾驶员的经验，采用模仿算法（行为克隆）对深度强化学习（DRL）算法进行初始化。其次，采用连续的、确定性的、无模型的深度强化学习算法，通过反复试验在线优化我们的 DRL 模型。通过结合行为克隆和深度强化学习算法，DRL 模型可以使用一些易于测量的车辆状态参数和环境信息作为输入，快速学习有效的路径跟踪策略。 DRL算法采用Actor-Critic结构。为了加快DRL模型的收敛速度，提高学习效果，我们针对两种不同的动作输出（方向盘转角和车速）提出了双演员网络结构，并构建了一个首席批评家网络来指导同时更新双演员网络的过程。基于这种双角色网络结构，我们可以挑选出一些更重要的状态信息作为不同动作输出的状态输入。此外，还为自动驾驶提出了一种奖励机制。最后进行了仿真训练和实验测试，结果证实本文提出的框架比原算法具有更高的数据效率，并且训练出的DRL模型能够准确跟踪参考路径，具有泛化能力不同的道路。
(2022)Driving Tasks Transfer Using Deep Reinforcement Learning for Decision-Making of Autonomous Vehicles in Unsignalized Intersection
- 知识转移是一个很有前途的概念，可以实现自动驾驶汽车的实时决策。本文构建了一个迁移深度强化学习 (RL) 框架来转换交叉路口环境中的驾驶任务。无信号交叉口的驾驶任务被分为左转、右转和自动车辆直行。自主自我车辆 (AEV) 的目标是高效、安全地通过十字路口。该目标促使所研究的车辆提高速度并避免与其他车辆相撞。从一个驾驶任务中学习到的决策策略通过三个转移规则转移到另一个驾驶任务中并进行评估。仿真结果表明，与类似任务相关的决策策略具有可移植性，成功率高。这表明所提出的控制框架可以减少时间消耗并实现在线实施。因此，转移 RL 概念有助于建立自动驾驶汽车的实时决策策略。
(2021)Autonomous Driving Based on Modified SAC Algorithm through Imitation Learning Pretraining
- 在本文中，我们使用模拟器 AirSim 的 [2] 环境 API 为自动驾驶任务实施了修改后的 SAC [1] 算法，该 API 提供各种天气、碰撞和照明选择。给定当前图像状态和汽车速度作为我们的输入，该任务输出油门、刹车和转向角数据，并通过 AirSim 控制输出给出车辆动作指令。由于自动驾驶汽车如果像人类一样驾驶更容易被接受，我们首先通过模仿学习来训练我们的模型，为 SAC 提供预训练的类人策略和权重。在强化学习过程中，为了增加可行策略的鲁棒性，我们在 SAC 算法中使用 ResNet-34 [3] 作为我们的参与者和评论家网络架构。
(2019)Comfortable Driving by using Deep Inverse Reinforcement Learning
- 乘客的舒适性和安全性是实现自动驾驶车辆的先决条件。在此，我们从“舒适性”的角度来定义“舒适驾驶”，为乘客减轻身心负担。深度强化学习在自动驾驶领域有多种应用，是实现舒适驾驶的有效途径。通常，深度强化学习中的奖励函数是定量表达的。然而，由于难以获得舒适驾驶的量化表达式，因此无法保证奖励函数能够满足“舒适驾驶”条件。因此，我们提出了一种方法来识别可以实现舒适驾驶的奖励函数，使用 LogReg-IRL，一种线性可解马尔可夫决策过程中的深度逆强化学习方法。在最大横向加速度不超过某个阈值的约束下，我们可以通过实验实现“舒适驾驶”。此外，通过计算状态依赖奖励函数的状态输入的梯度，我们可以分析重要的状态。
(2022)Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles
- 近年来，自动驾驶汽车领域的学术研究非常受欢迎，涉及传感器技术、V2X 通信、安全、安保、决策制定、控制，甚至法律和标准化规则等多个主题。除了经典的控制设计方法外，几乎所有这些领域都存在人工智能和机器学习方法。另一部分研究侧重于运动规划的不同层次，例如战略决策、轨迹规划和控制。机器学习本身已经开发出多种技术，本文介绍了其中一个领域，即深度强化学习 (DRL)。本文提供了对分层运动规划问题的见解，并描述了 DRL 的基础知识。设计这样一个系统的主要元素是环境的建模、建模抽象、状态和感知模型的描述、适当的奖励以及底层神经网络的实现。本文描述了车辆模型、模拟可能性和计算要求。介绍了不同层和观察模型的战略决策，例如，连续和离散状态表示、基于网格和基于相机的解决方案。本文调查了根据自动驾驶的不同任务和级别系统化的最先进解决方案，例如跟车、车道保持、轨迹跟踪、合并或在密集交通中驾驶。最后，讨论了未解决的问题和未来的挑战。
(2018)A Deep Reinforcement Learning Algorithm with Expert Demonstrations and Supervised Loss and its application in Autonomous Driving
- 在本文中，我们提出了一种深度强化学习 (DRL) 算法，该算法将深度确定性策略梯度 (DDPG) 与专家演示和监督损失相结合，用于自动驾驶决策。采用监督学习训练 DRL 代理，以加快探索过程并提高稳定性。算法中引入了监督损失函数来更新演员网络。此外，结合奖励建设，使训练过程更加稳定高效。所提出的算法应用于称为 TORCS 的流行自动驾驶模拟器。实验结果表明，利用我们的算法在自动驾驶中提高了训练效率和稳定性。
(2022)Deep Reinforcement Learning for Autonomous Driving: A Survey
- 随着深度表示学习的发展，强化学习（RL）领域已经成为一个强大的学习框架，现在能够在高维环境中学习复杂的策略。这篇综述总结了深度强化学习 (DRL) 算法，并提供了采用 (D)RL 方法的自动驾驶任务的分类，同时解决了自动驾驶代理在现实世界部署中的关键计算挑战。它还描述了相关但不是经典 RL 算法的相邻领域，例如行为克隆、模仿学习、逆向强化学习。讨论了模拟器在训练代理中的作用，验证、测试和强化 RL 中现有解决方案的方法。
(2022)Decision Making for Autonomous Driving Via Multimodal Transformer and Deep Reinforcement Learning
- 自动驾驶中的决策模块在传感模块处理的环境信息的基础上，综合环境信息和车辆信息，使自主车辆产生安全合理的驾驶行为。考虑到自动驾驶汽车行驶环境的复杂性和多变性，近年来研究人员开始将深度强化学习（DRL）应用于自动驾驶控制策略的研究中。在本文中，我们应用结合多模态变换器和 DRL 的算法框架来解决复杂场景中的自动驾驶决策问题。我们使用 ResNet 和 transformer 来提取 LiDAR 点云和图像的特征。我们使用深度确定性策略梯度（DDPG）算法来完成后续的自动驾驶决策任务。并且我们利用信息瓶颈来提高RL的采样效率。我们使用 CARLA 模拟器来评估我们的方法。结果表明，我们的方法允许代理学习更好的驾驶策略。
(2022)A Survey of Deep RL and IL for Autonomous Driving Policy Learning
- 自动驾驶 (AD) 代理根据在线感知结果生成驾驶策略，这些结果是在多个抽象级别获得的，例如行为规划、运动规划和控制。驾驶策略对于实现安全、高效、和谐的驾驶行为至关重要，而 AD 代理在复杂场景中仍然面临着巨大的挑战。由于它们在机器人技术和视频游戏等领域的成功应用，近年来使用深度强化学习 (DRL) 和深度模仿学习 (DIL) 技术推导 AD 策略得到了广泛的研究工作。本文是对这一工作主体的全面调查，分三个层次进行：首先，从系统角度构建文献研究的分类，其中将 DRL/DIL 模型集成到 AD 架构中的五种模式是确定。其次，全面回顾了用于执行特定 AD 任务的 DRL/DIL 模型的公式，其中涵盖了模型状态和动作空间以及强化学习奖励的各种设计。最后，对 DRL/DIL 模型如何解决 AD 应用中有关驾驶安全、与其他交通参与者的交互以及环境不确定性的关键问题进行了深入审查。据我们所知，这是第一个关注使用 DRL/DIL 进行 AD 策略学习的调查，同时从系统、任务驱动和问题驱动的角度进行了研究。我们分享和讨论调查结果，这可能会导致未来对各种主题的调查。

2. arxiv Reinforcement Learning in Autonomous Vehicle/Driving (2023)

Review of Deep Reinforcement Learning for Autonomous Driving
- 自深度神经网络卷土重来以来，强化学习在许多常规游戏中逐渐加强并超越了人类。然而，要将这些成果复制到自动驾驶中并不容易，因为现实世界中的状态空间极其复杂，动作空间是连续的，需要精细控制。此外，无论环境有多复杂，自动驾驶系统也必须保持其功能。深度强化学习领域 (DRL) 已成为一个强大的学习框架，可以通过深度表示学习处理高维环境中的复杂策略。这项研究概述了深度强化学习算法 (DRL)。它提出了自动驾驶的命名法，其中使用了 DRL 技术，从而讨论了在真实环境中评估自动驾驶代理的重要计算问题。相反，它涉及类似但不是标准的 RL 技术，以及相邻的领域，例如动作仿真、建模模仿、逆向强化学习。解决了模拟器在训练代理中的作用，以及现有 RL 解决方案的验证、检查和鲁棒性的方法。
Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement Learning with Continuous Action Horizon
- 自动驾驶汽车的决策策略描述了为实现特定导航任务而进行的一系列驾驶操作。本文利用深度强化学习 (DRL) 方法来解决高速公路上的连续水平决策问题。首先，介绍了高速公路上的车辆运动学和驾驶场景。 ego 自动驾驶汽车的运行目标是在不发生碰撞的情况下执行高效、平稳的策略。然后，说明了名为近端策略优化 (PPO) 增强的 DRL 的特定算法。为了克服训练效率低和样本效率低的挑战，该应用算法可以实现高学习效率和出色的控制性能。最后，从最优性、学习效率和适应性等多个角度评估了基于 PPO-DRL 的决策策略。通过将其应用于类似的驾驶场景来讨论其在线应用的潜力。
Tuning Path Tracking Controllers for Autonomous Cars Using Reinforcement Learning
- 本文提出了一种基于强化学习 (RL) 的自适应路径跟踪控制系统,用于自动驾驶汽车. 四参数控制器塑造车辆的行为以在变道和环形交叉路口导航. 跟踪器的调整使用受过教育的 Q-L 收益算法来最小化横向和转向轨迹误差. CARLA 模拟环境用于训练和测试. 结果表明,车辆能够根据不同类型的参考轨迹调整其行为,以低跟踪误差安全导航. CARLA 和跟踪器之间的 ROS 桥接结果 (i) 是一个真实的系统,并且 (ii) 简化了用真实车辆替换 CARLA 的过程. 本文最后提出了基于非光滑系统稳定性结果的关于整体架构可靠性的论证.
Integration of Reinforcement Learning Based Behavior Planning With Sampling Based Motion Planning for Automated Driving
- 强化学习在开发自动驾驶规划方法方面受到了高度的研究兴趣。大多数先前的工作都考虑产生直接控制命令的端到端规划任务，很少将其算法部署到真实车辆中。在这项工作中，我们提出了一种方法，将训练有素的深度强化学习策略用于专门的高级行为规划。通过填充抽象的目标接口，可以利用已建立的运动规划算法，导出平滑且可驾驶的轨迹。鉴于当前的环境模型，我们建议使用内置模拟器来预测未来给定地平线的交通场景。自动驾驶车辆在混合交通中的行为是通过查询学习到的策略来确定的。据我们所知，这项工作是第一个以这种方式应用深度强化学习的工作，因此缺乏最先进的基准。因此，我们通过将理想主义的单次计划与通过学习策略进行循环重新计划进行比较来验证所提出的方法。在试验场上使用真实测试车辆进行的实验证明了我们的方法有潜力缩小基于深度强化学习的规划方法的模拟与现实世界的差距。额外的模拟分析表明，可以通过采用循环重新规划方法来管理更复杂的多代理机动。
FastRLAP: A System for Learning High-Speed Driving via Deep RL and Autonomous Practicing
- 我们提出了一个系统，该系统使自主小型遥控车能够使用强化学习 (RL) 从视觉观察中积极驾驶。我们的系统 FastRLAP（更快的圈速）在现实世界中自主训练，无需人工干预，也不需要任何模拟或专家演示。我们的系统集成了许多重要组件以实现这一点：我们从其他机器人在其他环境中（低速）导航的大型先验数据集中初始化 RL 策略和价值函数的表示，这提供了与导航相关的表示。从这里开始，一种高效样本在线 RL 方法使用单个低速用户提供的演示来确定所需的驾驶路线，提取一组导航检查点，并自主练习驾驶通过这些检查点，在发生碰撞或故障时自动重置。或许令人惊讶的是，我们发现通过适当的初始化和算法选择，我们的系统可以通过不到 20 分钟的在线培训学会驾驶各种赛车课程。由此产生的策略展示了紧急的激进驾驶技能，例如定时制动和转弯加速以及避开阻碍机器人运动的区域，在训练过程中使用类似的第一人称界面接近人类驾驶员的表现。
Generative Adversarial Imitation Learning for End-to-End Autonomous Driving on Urban Environments
- 自动驾驶是一项复杂的任务，自 1989 年第一辆自动驾驶汽车 ALVINN 以来，人们就通过监督学习方法或行为克隆 (BC) 解决了这个问题。在 BC 中，神经网络使用状态-动作对进行训练，这些状态-动作对构成专家（即人类驾驶员）制作的训练集。然而，这种类型的模仿学习没有考虑在导航轨迹的不同时刻采取的行动之间可能存在的时间依赖性。这些类型的任务最好由需要定义奖励函数的强化学习 (RL) 算法处理。另一方面，最近的模仿学习方法，例如生成对抗性模仿学习 (GAIL)，可以在不明确要求定义奖励函数的情况下训练策略，允许代理直接在专家训练集上通过反复试验来学习轨迹。在这项工作中，我们提出了两种 GAIL 变体，用于在城市场景的真实 CARLA 模拟环境中进行车辆自主导航。它们都使用相同的网络架构，处理来自三个前置摄像头的高维图像输入，以及代表速度的其他九个连续输入，来自稀疏轨迹的下一个点和一个高级驾驶命令。我们表明，它们都能够在训练结束后从头到尾模仿专家轨迹，但在收敛时间和训练稳定性方面，使用 BC 增强的 GAIL 损失函数优于前者。
Self-Improving Safety Performance of Reinforcement Learning Based Driving with Black-Box Verification Algorithms
- 在这项工作中，我们提出了一种自我改进的人工智能系统，以使用黑盒验证方法增强基于强化学习 (RL) 的自动驾驶 (AD) 代理的安全性能。 RL 算法近年来在 AD 应用中变得流行。然而，现有 RL 算法的性能在很大程度上取决于训练场景的多样性。在训练阶段缺乏安全关键场景可能会导致现实世界驾驶应用程序的泛化性能不佳。我们提出了一个新的框架，其中通过黑盒验证方法探索训练集的弱点。在发现 AD 故障场景后，通过迁移学习重新启动 RL 代理的训练，以提高之前不安全场景的性能。仿真结果表明，我们的方法可以有效地发现基于 RL 的自适应巡航控制 (ACC) 应用程序中行动决策的安全故障，并通过我们方法的迭代应用显着减少车辆碰撞次数。源代码可在 https://github.com/data-and-decision-lab/self-improving-RL 上公开获得。
Modified DDPG car-following model with a real-world human driving experience with CARLA simulator
- 在自动驾驶领域，将人类知识融合到深度强化学习（DRL）中往往是基于在模拟环境中记录的人类演示。这限制了在现实世界交通中应用的普遍性和可行性。我们提出了一种两阶段 DRL 方法来训练跟车代理，它通过利用真实世界的人类驾驶体验来修改策略，并实现优于纯 DRL 代理的性能。训练 DRL 代理是在 CARLA 框架内使用机器人操作系统 (ROS) 完成的。为了进行评估，我们设计了不同的驾驶场景，将所提出的两阶段 DRL 跟车代理与其他代理进行比较。从人类司机那里提取“好”行为后，代理变得更加高效和合理，这使得这种自主代理更适合人机交互（HRI）交通。
AutoVRL: A High Fidelity Autonomous Ground Vehicle Simulator for Sim-to-Real Deep Reinforcement Learning
- 深度强化学习 (DRL) 支持利用原始传感器数据进行认知自主地面车辆 (AGV) 导航，而无需先验地图或 GPS，这在自然灾害发生地区和地外行星等危险、信息匮乏的环境中是必不可少的。学习最佳 DRL 策略所需的大量训练时间（复杂任务可能需要数天或数周）是在 AGV 应用中实际实施的主要障碍。训练需要在很长一段时间内与周围环境反复碰撞，具体取决于任务的复杂性，以加强积极的探索性、特定于应用程序的行为，这在现实世界中是昂贵且耗时的。有效地弥合模拟与现实世界的差距是在复杂的 AGV 应用程序中成功实施 DRL 的必要条件，从而能够学习具有成本效益的策略。我们介绍了 AutoVRL，这是一种开源高保真模拟器，它建立在 Bullet 物理引擎之上，利用 PyTorch 中的 OpenAI Gym 和 Stable Baselines3 来训练 AGV DRL 代理以实现从模拟到真实的策略传输。 AutoVRL 配备了 GPS、IMU、LiDAR 和摄像头的传感器实现，用于 AGV 控制的执行器和现实环境，具有针对新环境和 AGV 模型的可扩展性。该模拟器提供对最先进的 DRL 算法的访问，利用 python 接口进行简单的算法和环境定制，以及模拟执行.
Non-zero-sum Game Control for Multi-vehicle Driving via Reinforcement Learning
- 车辆在道路上行驶时，其行为会受到周围车辆的影响。预测和决策不应被视为两个独立的阶段，因为所有车辆都以交互方式做出决策。本文将多车驾驶场景构建为非零和博弈，并提出了一种新颖的博弈控制框架，将预测、决策和控制作为一个整体来考虑。该框架考虑了车辆之间相互作用的相互影响，因为决策是由纳什均衡策略做出的。为了有效地获得该策略，ADP 是一种基于模型的强化学习方法，用于求解耦合的 Hamilton-Jacobi-Bellman 方程。驾驶性能通过跟踪、效率、安全和舒适指数来评估。实验表明，我们的算法可以通过直接控制加速度和转向角来完美驾驶。车辆可以学习交互行为，例如超车和超车。总之，我们提出了一个多车驾驶建模的非零和博弈框架，提供了解决纳什均衡驾驶策略的有效方法，并在无信号交叉口进行了验证。
Safe Reinforcement Learning for an Energy-Efficient Driver Assistance System
- 基于强化学习 (RL) 的驾驶员辅助系统寻求通过考虑来自现场的经验数据不断改进动力总成控制动作来改善油耗。然而，探索不同经验以学习最佳策略的需要通常限制了 RL 技术在车辆控制等安全关键系统中的应用。在本文中，导出并利用指数控制屏障函数 (ECBF) 来过滤由基于 RL 的驾驶员辅助系统提出的不安全行为。 RL 代理自由探索和优化性能目标，同时将不安全的操作投射到安全域中最接近的操作。奖励的结构是为了以提高燃油经济性且不影响舒适性的方式满足驾驶员的加速请求。通过为混合动作空间配置的最大后验策略优化 (MPO) 算法计算最大化累积奖励的最佳齿轮和牵引扭矩控制动作。拟议的 safe-RL 方案在跟车场景中进行了训练和评估，结果表明它在训练和评估期间有效地避免了碰撞，同时为驾驶员辅助系统提供了预期的燃油经济性改进。
Learning the policy for mixed electric platoon control of automated and human-driven vehicles at signalized intersection: a random search approach
- 在过去的几十年里，车辆的升级和更新速度加快了。出于对环境友好和智能化的需求，电动汽车（EV）和联网和自动驾驶汽车（CAV）已成为交通系统的新组成部分。本文开发了一个强化学习框架，以在信号交叉口对由 CAV 和人力驾驶车辆 (HDV) 组成的电动排实施自适应控制。首先，提出了马尔可夫决策过程（MDP）模型来描述混合排的决策过程。为模型设计了新颖的状态表示和奖励函数，以考虑整个排的行为。其次，为了处理延迟奖励，提出了一种增强随机搜索（ARS）算法。智能体学习到的控制策略可以指导作为排长的 CAV 的纵向运动。最后，在仿真套件SUMO中进行了一系列仿真。与几种最先进的 (SOTA) 强化学习方法相比，所提出的方法可以获得更高的奖励。同时，仿真结果证明了延迟奖励的有效性，该延迟奖励旨在优于分布式奖励机制。与正常的跟车行为相比，灵敏度分析表明可以将能量节省到不同的扩展（优化目标的 39.27。在在不牺牲行程延迟的前提下，所提出的控制方法最多可节省 53.64
Game Theoretic Decision Making by Actively Learning Human Intentions Applied on Autonomous Driving
- 估计人类意图并与人类驾驶员智能互动的能力对于自动驾驶汽车成功实现其目标至关重要。在本文中，我们提出了一种博弈论规划算法，该算法使用迭代推理框架对人类对手进行建模，并通过概率推理和主动学习来估计人类潜在的认知状态。通过将交互建模为具有自适应状态和动作空间的部分可观察马尔可夫决策过程，我们的算法能够在真实的驾驶模拟器中完成实时换道任务。我们将我们的算法在密集交通中的换道性能与最先进的自动换道算法进行比较，以展示迭代推理和主动学习在避免过度保守行为和成功实现驾驶目标方面的优势。
Conditional Predictive Behavior Planning with Inverse Reinforcement Learning for Human-like Autonomous Driving
- 做出安全和类似人类的决策是自动驾驶系统的一项基本能力，而基于学习的行为规划为实现这一目标提供了一条有希望的途径。与直接输出决策的现有基于学习的方法不同，这项工作引入了一种预测行为规划框架，该框架学习从人类驾驶数据中进行预测和评估。该框架由三个部分组成：一个行为生成模块，以轨迹建议的形式产生一组不同的候选行为，一个条件运动预测网络，它根据每个建议预测其他代理的未来轨迹，以及一个评分模块，用于评估使用最大熵逆强化学习 (IRL) 的候选计划。我们通过综合实验在大规模真实世界城市驾驶数据集上验证了所提出的框架。结果表明，条件预测模型可以在给定不同的轨迹建议的情况下预测不同且合理的未来轨迹，并且基于 IRL 的评分模块可以选择接近人类驾驶的计划。所提出的框架在与人类驾驶轨迹的相似性方面优于其他基线方法。此外，我们发现与非条件模型相比，条件预测模型提高了预测和规划性能。最后，我们注意到学习评分模块对于使评估与人类驾驶员保持一致至关重要
Evaluating the Robustness of Deep Reinforcement Learning for Autonomous Policies in a Multi-agent Urban Driving Environment
- 深度强化学习被积极用于在模拟驾驶环境中训练自动驾驶汽车政策。由于各种强化学习算法的可用性很高，并且缺乏对不同驾驶场景的系统比较，我们不确定哪种算法对于在单代理和多代理驾驶环境中训练自动驾驶汽车软件更有效。在基于视觉的自动驾驶中比较深度强化学习的基准框架将为训练更好的自动驾驶汽车政策开辟可能性。为了应对这些挑战，我们提供了一个开放且可重复使用的基准测试框架，用于在单智能体和多智能体环境中对自动驾驶的深度强化学习算法进行系统评估和比较分析。使用该框架，我们对离散和连续动作空间深度强化学习算法进行了比较研究。我们还提出了一个综合的多目标奖励函数，用于评估基于深度强化学习的自动驾驶代理。我们在纯视觉高保真城市驾驶模拟环境中进行实验。结果表明，只有一些深度强化学习算法在各种仅限多代理的环境设置中训练时，在单个和多代理场景中始终表现更好。例如，基于 A3C 和 TD3 的自动驾驶汽车在单智能体和多智能体场景中在更稳健的动作和最小的驾驶错误方面表现相对更好。我们得出结论，不同的深度强化学习算法在不同场景下表现出不同的驾驶和测试性能，这强调了对其进行系统比较分析的必要性。本文提出的基准测试框架有助于进行此类比较。
Adversarial Deep Reinforcement Learning for Improving the Robustness of Multi-agent Autonomous Driving Policies
- 众所周知，自动驾驶汽车容易受到对抗性攻击，这种攻击可能会危及汽车的安全并对其他道路使用者构成危险。为了有效防御对手，不仅需要测试自动驾驶汽车以发现驾驶错误，还需要提高汽车对这些错误的鲁棒性。为此，在本文中，我们提出了一种用于自动驾驶汽车的两步方法，包括（i）通过训练对抗性驾驶代理来发现自动驾驶汽车的故障状态，以及（ii）通过重新训练来提高自动驾驶汽车的稳健性具有有效的对抗性输入。我们的方法支持在多代理环境中测试自动驾驶汽车，我们在两个自定义奖励函数上训练和比较对抗性汽车政策，以测试自动驾驶汽车的驾驶控制决策。我们在基于视觉的高保真城市驾驶模拟环境中进行实验。我们的结果表明，对抗性测试可用于发现错误的自动驾驶行为，然后进行对抗性训练以提高基于深度强化学习的自动驾驶策略的稳健性。我们证明，使用有效的对抗性输入进行再训练的自动驾驶汽车在减少碰撞和越野转向错误方面显着提高了其驾驶策略的性能。
A novel approach of a deep reinforcement learning based motion cueing algorithm for vehicle driving simulation
- 在运动模拟领域，沉浸程度在很大程度上取决于运动提示算法 (MCA)，因为它将模拟车辆的参考运动转换为运动模拟平台 (MSP) 的运动。 MCA 面临的挑战是在不超出 MSP 工作空间限制的情况下尽可能准确地再现真实车辆驾驶员的运动感知，以提供逼真的虚拟驾驶体验。如果感知到的运动信号与视觉提示之间存在较大差异，则可能会出现晕动病，典型症状包括恶心、头晕/眩晕、头痛和疲劳。现有方法要么产生非最佳结果，例如，由于过滤、线性化或简化，要么所需的计算时间超过闭环应用程序的实时要求。在这项工作中提出了一个新的解决方案，其中不是人类设计师指定 MCA 的原则，而是人工智能 (AI) 通过与 MSP 交互的反复试验来学习最佳运动。为实现这一目标，应用了深度强化学习 (RL)，其中代理与制定为马尔可夫决策过程~(MDP) 的环境进行交互。这允许代理直接控制模拟 MSP，以获得有关其在平台工作空间使用和作用于模拟器用户的动作方面的性能的反馈。使用的 RL 算法是近端策略优化 (PPO)，其中学习与控制策略对应的值函数和策略，并将两者映射到人工神经网络 (ANN) 中。这种方法是在 Python 中实现的，其功能通过预先录制的横向操作的实际示例进行了演示。随后对标准化双车道变更的验证表明，RL 算法能够学习控制策略并提高
A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer in Autonomous Driving
- 深度强化学习 (DRL) 在解决各个研究领域的复杂任务方面取得了显著成功。然而，由于模拟与现实之间存在显着差异，将 DRL 代理转移到现实世界仍然具有挑战性。为了解决这个问题，我们提出了一个强大的 DRL 框架，该框架利用依赖于平台的感知模块来提取与任务相关的信息，并在模拟中训练车道跟随和超车代理。该框架有助于以最小的努力将 DRL 代理无缝转移到新的模拟环境和现实世界。我们在模拟和现实世界的各种驾驶场景中评估代理的性能，并将其与人类玩家和模拟中的 PID 基线进行比较。我们提出的框架显着减少了不同平台之间的差距和 Sim2Real 差距，使受过训练的代理能够在模拟和现实世界中实现相似的性能，从而有效地驾驶车辆。
Towards Safety Assured End-to-End Vision-Based Control for Autonomous Racing
- 自动驾驶赛车是一项具有挑战性的任务，因为它需要在车辆以转弯速度行驶时进行精确的控制。传统的自治管道需要准确的预映射、定位和规划，这使得任务的计算成本高且依赖于环境。最近的工作提出使用模仿和强化学习来训练端到端深度神经网络，并在高速赛车方面取得了可喜的成果。然而，端到端模型部署在真实系统上可能很危险，因为神经网络被视为没有任何可证明的安全保证的黑盒模型。在这项工作中，我们提出了一种解耦方法，其中一起学习最佳端到端控制器和状态预测端到端模型，并且车辆的预测状态用于制定控制屏障功能以保护车辆留在车道边界内。我们在高保真 Carla 驾驶模拟器和真实轨道上的 1/10 比例遥控车上验证了我们的算法。评估结果表明，使用显式安全控制器有助于以更少的迭代次数安全地学习任务，并使车辆能够沿着更具挑战性的赛道安全地在赛道上行驶。
Deep Reinforcement Learning for Autonomous Ground Vehicle Exploration Without A-Priori Maps
- 自主地面车辆 (AGV) 是广泛应用的重要工具，因为它们能够在危险环境中以最少的人工操作输入运行。高效且有效的运动规划对于 AGV 的成功运行至关重要。传统的运动规划算法依赖于环境特征的先验知识，并且在信息匮乏、动态变化的环境中提供有限的实用性，例如发生火灾和地震等紧急危险的区域，以及火星上隧道和熔岩管等未开发的地下环境。我们提出了一种深度强化学习 (DRL) 框架，用于智能 AGV 探索，无需先验地图，利用 Actor-Critic DRL 算法在机器人应用所需的连续和高维动作空间中学习策略。 DRL 架构包括用于评论家和演员表示的前馈神经网络，其中演员网络在给定当前状态输入的情况下制定线性和角速度控制动作，这些动作由评论家网络评估，该网络学习和估计 Q 值以最大化累积奖励。三种离策略 DRL 算法，DDPG、TD3 和 SAC，在两个不同复杂度的环境中进行训练和比较，并在没有事先训练或不了解地图特征的第三个环境中进一步评估。该代理被证明可以在每个训练期结束时学习最佳策略，以绘制快速、高效和无碰撞的探索轨迹，并且是可扩展的，能够适应未知环境，而无需更改网络架构或超参数。
Cognitive Level-k Meta-Learning for Safe and Pedestrian-Aware Autonomous Driving
- 现代自动驾驶汽车的潜在市场是巨大的，因为它们发展非常迅速。但与此同时，自动驾驶导致行人死亡的事故在过马路的案例中也有记录。为了确保自动驾驶环境中的交通安全并应对人机交互挑战（例如乱穿马路），我们提出了 Level-k 元强化学习 (LK-MRL) 算法。它考虑了行人反应的认知层次，使自动驾驶车辆能够适应各种人类行为。 %在学习最佳策略时考虑了行人的反应。 LK-MRL作为一种自动驾驶车辆算法，基于元强化学习和人类认知层次框架的结合，将level-k思想结合到MAML中，为异构行人做好准备，提高交叉路口安全性。我们在城市交通模拟器的两个认知对抗层次场景中评估该算法，并通过展示其推测和更高层次推理的能力来说明其在确保道路安全方面的作用。
(Re)2H2O: Autonomous Driving Scenario Generation via Reversely Regularized Hybrid Offline-and-Online Reinforcement Learning
- 长期以来，自动驾驶及其广泛采用带来了巨大的希望。然而，如果没有可靠和彻底的测试程序，不仅该行业难以大规模生产自动驾驶汽车 (AV)，而且公众和政策制定者都不愿意接受这些创新。生成对 AV 提出重大挑战的安全关键场景是测试必不可少的第一步。真实世界的数据集包括自然但过于安全的驾驶行为，而模拟将允许不受限制地探索多样化和激进的交通场景。相反，在没有将真实世界数据分布作为隐式约束的情况下，模拟中的高维搜索空间会禁用有效的场景生成。为了结合两者的优势，学习同时从离线真实世界和在线模拟数据生成场景似乎很有吸引力。因此，我们定制了一个反向正则化混合离线和在线 ((Re)2H2O) 强化学习配方，以额外惩罚真实世界数据上的 Q 值和奖励模拟数据上的 Q 值，从而确保生成的场景都不同和敌对的。通过广泛的实验，我们的解决方案被证明会产生比竞争基线更具风险的场景，并且它可以推广到各种自动驾驶模型。此外，这些生成的场景也被证实能够微调 AV 性能。
Hybrid Deep Reinforcement Learning and Planning for Safe and Comfortable Automated Driving
- 我们提出了一种新颖的混合学习方法 HyLEAR，用于解决 POMDP 中自动驾驶汽车的无碰撞导航问题。 HyLEAR 利用插入式学习将混合规划器的知识嵌入到深度强化学习器中，以更快地确定安全舒适的驾驶策略。特别是，混合规划器将行人路径预测和风险感知路径规划与基于驾驶行为规则的推理相结合，这样驾驶策略也会尽可能地考虑乘坐舒适性和一组给定的驾驶行为规则。我们对关键交通场景的 CARLA-CTS1 基准进行的实验性能分析表明，HyLEAR 在安全性和乘坐舒适性方面可以显着优于选定的基线。
Safety Guaranteed Manipulation Based on Reinforcement Learning Planner and Model Predictive Control Actor
- 深度强化学习 (RL) 在以自主和自我导向的方式处理具有挑战性的操作任务方面被赋予了很高的期望。尽管强化学习的发展取得了重大进展，但该范式的实际部署至少受到两个障碍的阻碍，即奖励函数的工程和确保基于学习的控制器的安全保证。在本文中，我们通过提出一个框架来解决这些具有挑战性的局限性，该框架将使用稀疏奖励训练的强化学习 {planner} 与模型预测控制器 (MPC) { actor}，从而提供一个安全的策略。一方面，RL {planner} 通过选择短期内容易实现并有望实现长期目标的中间目标，从稀疏奖励中学习。另一方面，MPC {actor} 将来自 RL {planner} 的建议中间目标作为输入，并预测机器人的动作将如何使其达到该目标目标，同时在短时间内避开任何障碍。我们在四个具有动态障碍的具有挑战性的操纵任务上评估了我们的方法，结果表明，通过利用这两个组件的互补优势，代理可以 100% 的成功率安全地解决复杂、动态环境中的操纵任务。视频可在 \url{this https URL} 获得。
Deep Reinforcement Learning for Unmanned Aerial Vehicle-Assisted Vehicular Networks
- 无人驾驶飞行器 (UAV) 有望补充未来智慧城市中的 5G 通信基础设施。热点容易出现在道路交叉口，车辆之间的有效通信具有挑战性。无人机可以作为中继，具有价格低廉、易于部署、视距链接和机动灵活等优点。在本文中，我们研究了无人机辅助车载网络，其中无人机联合调整其传输控制（功率和信道）和 3D 飞行以最大化总吞吐量。首先，我们通过对无人机/车辆的移动性和状态转换进行建模来制定马尔可夫决策过程 (MDP) 问题。其次，我们使用深度强化学习方法解决目标问题，即深度确定性策略梯度（DDPG），并提出三种具有不同控制目标的解决方案。深度强化学习方法在不知道环境变量的情况下通过与环境的交互获得最优策略。考虑到我们问题中的环境变量是未知的和不可测量的，我们选择了深度强化学习的方法来解决它。此外，考虑到 3D 飞行的能耗，我们扩展了所提出的解决方案，以最大化每单位能量的总吞吐量。为了根据其预测鼓励或阻止无人机的机动性，修改了 DDPG 框架，其中无人机自动调整其学习率。第三，在具有小状态空间和动作空间的简化模型中，我们验证了所提出算法的最优性。与两个基线方案相比，我们在现实模型中证明了所提出算法的有效性。
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning
- 在模仿和强化学习中，人工监督的成本限制了机器人可以训练的数据量。一个理想的目标是构建自我改进的机器人：可以通过自主交互进行自我学习和改进的机器人，而人类监督或监督最少。这样的机器人可以收集和训练更大的数据集，从而学习更强大和更高效的策略。虽然强化学习通过反复试验为这种自主学习提供了框架，但实际实现最终需要对奖励函数设计进行广泛的人工监督，并在交互事件之间反复重置环境。在这项工作中，我们提出了 MEDAL++，这是一种用于自我改进机器人系统的新颖设计：在开始时给出一小组专家演示，机器人通过学习完成和撤消任务来自主练习任务，同时推断奖励函数从示威。策略和奖励函数是从高维视觉输入端到端学习的，绕过了对先前工作中使用的视觉编码器进行显式状态估计或任务特定预训练的需要。我们首先在模拟的非情景基准 EARL 上评估我们提出的算法，发现与最先进的基于视觉的方法相比，MEDAL++ 的数据效率更高，最终性能提高了 30%。我们的真实机器人实验表明，与之前的工作相比，MEDAL++ 可以应用于更大环境中的操纵问题，自主自我改进可以将成功率提高 30-70%，而仅对专家数据进行行为克隆。代码、培训和评估视频以及简要概述可在以下网址获得：此url(https://architsharma97.github.io/self-improving-robots/)
Traffic Shaping and Hysteresis Mitigation Using Deep Reinforcement Learning in a Connected Driving Environment
- 一种基于多代理深度强化学习的流量整形框架。所提出的框架提供了优于现有拥塞管理策略的关键优势，即能够减轻滞后现象。与专注于故障预防的现有拥塞管理策略不同，所提出的框架在故障形成后非常有效。拟议的框架假设共享信息的自动车辆之间存在部分连接性。该框架需要由一维纵向控制定义的基本自治水平。该框架主要使用集中训练、集中执行的多代理深度强化学习方法构建，其中纵向控制由加速或减速命令信号定义，然后由所有代理统一执行。框架训练和测试所采用的模型基于著名的Double Deep Q-Learning算法，该算法以交通流中的平均流状态作为模型输入，并以加速度或减速度值的形式输出动作。我们展示了该模型塑造交通状态、减轻滞后的负面影响，甚至改善交通流量超过其原始水平的能力。本文还确定了在环路系统内 CAV 均匀分布的假设下成功塑造流量所需的 CAV 的最小百分比。这项工作中说明的框架不仅展示了强化学习在应对此类挑战方面的理论适用性，而且还提出了一个现实的解决方案，该解决方案只需要部分连接和对系统平均速度的持续监控，这可以使用现成的传感器来实现测量合理接近 CAVs.k 的车辆的速度.
Incorporating Recurrent Reinforcement Learning into Model Predictive Control for Adaptive Control in Autonomous Driving
- 模型预测控制（MPC）作为一种强大的控制技术在自动驾驶任务中引起了极大的关注。 MPC 控制器的成功很大程度上取决于准确的内部动力学模型。然而，通常通过系统识别学习的静态参数往往无法适应现实场景中的内部和外部扰动。在本文中，我们首先（1）将问题重新表述为部分观察到的马尔可夫决策过程（POMDP），该过程将不确定性吸收到观察中并将马尔可夫属性保持为隐藏状态； (2) 通过循环强化学习 (RRL) 学习不断调整动态模型参数的循环策略，以实现最优和自适应控制； (3) 最后在 CARLA 模拟器中评估所提出的算法（称为 MPC-RRL），并在广泛的扰动下产生稳健的行为。
Subgoal-Driven Navigation in Dynamic Environments Using Attention-Based Deep Reinforcement Learning
- 在包含未知静态和动态障碍物的环境中进行无碰撞、目标导向的导航仍然是一个巨大的挑战，尤其是在需要避免手动调整导航策略或昂贵的运动预测时。因此，在本文中，我们提出了一种子目标驱动的分层导航架构，该架构经过深度强化学习训练，可以解耦避障和电机控制。特别是，我们将导航任务分为下一个子目标位置的预测，以避免在朝向最终目标位置移动时发生碰撞，以及机器人速度控制的预测。通过依靠 2D 激光雷达，我们的方法学会了避开障碍物，同时仍然实现目标导向的行为，以及生成低级速度控制命令以达到子目标。在我们的架构中，我们将注意力机制应用于机器人的 2D 激光雷达读数，并计算激光雷达扫描段对于避免碰撞的重要性。正如我们在使用 Turtlebot 机器人进行的模拟和真实世界实验中所展示的那样，我们提出的方法可以使人类之间的轨迹平稳且安全，并且在成功率方面明显优于最先进的方法。在线提供描述我们方法的补充视频。
Penalty-Based Imitation Learning With Cross Semantics Generation Sensor Fusion for Autonomous Driving
- 随着模式识别和计算机视觉技术的快速发展，目标检测或语义分割等任务的准确性甚至超过了人类。基于这些坚实的基础，自动驾驶正在成为一个重要的研究方向，旨在改变交通和移动的未来。传感器对于自动驾驶的安全性和感知周围环境的可行性至关重要。多传感器融合因其潜在的多维感知和融合能力而成为当前的研究热点。在本文中，我们提出了一种新颖的特征级多传感器融合技术，用于具有模仿学习的端到端自动驾驶导航。我们的论文主要关注激光雷达和 RGB 信息的融合技术。我们还提供了一种全新的基于惩罚的模仿学习方法，以加强模型对交通规则的遵守，统一模仿学习的目标和自动驾驶的指标。
Road Traffic Law Adaptive Decision-making for Self-Driving Vehicles
- 自动驾驶汽车拥有自己的智能，可以在开阔的道路上行驶。然而，车辆管理者，例如政府或工业公司，仍然需要一种方法来告诉这些自动驾驶车辆鼓励或禁止哪些行为。与人类司机不同，目前的自动驾驶汽车无法理解交通规则，因此需要依靠程序员手动将相应的规则写入驾驶系统。适应一些临时的交通法规效率会降低，也很难，尤其是当车辆使用数据驱动的决策算法时。此外，目前的自动驾驶车辆系统很少考虑交通法规的修改。本工作旨在设计一种道路交通规律自适应决策方法。决策算法是基于强化学习设计的，其中交通规则通常在深度神经网络中隐式编码。主要思想是通过法律自适应备份策略为自动驾驶车辆提供对交通规则的适应性。在这项工作中，基于自然语言的交通规则首先通过线性时间逻辑方法转化为逻辑表达式。然后，系统会通过设计一个长期的 RL 动作空间来尝试提前监控自动驾驶车辆是否可能违反交通规则。最后，基于样本的规划方法将在车辆可能违反交通规则时重新规划轨迹。该方法在北京冬奥会车道场景和 CARLA 模拟器内置的超车案例中得到验证。结果表明，通过采用这种方法，自动驾驶车辆可以有效地遵守新颁布或更新的交通法规。这种方法有助于自动驾驶车辆受数字交通法的约束，这对于广泛采用自动驾驶是必要的。
Autonomous Slalom Maneuver Based on Expert Drivers’ Behavior Using Convolutional Neural Network
- 变道和避障是自动驾驶汽车最重要的任务之一。迄今为止，已经提出了许多通常基于路径轨迹或强化学习方法的算法。尽管这些方法很有效，但它们无法准确模仿专业驾驶员行驶的平滑路径。在本文中，提出了一种使用卷积神经网络 (CNN) 模拟驾驶员行为的方法。首先，从驾驶模拟器中的四名专家驾驶员收集的数据集中提取七个特征。然后，将这些特征从一维数组转换为二维数组并注入 CNN。 CNN 模型计算所需的方向盘角度并将其发送到自适应 PD 控制器。最后，控制单元向方向盘施加适当的扭矩。结果表明，CNN 模型可以模拟驾驶员的行为，R2 平方为 0.83。此外，所提出方法的性能在驾驶模拟器中进行了 17 次试验评估，成功避开了所有交通锥。在一些试验中，与专家驾驶员相比，所提出的方法执行了更平稳的操作。
Scaling Self-Supervised End-to-End Driving with Multi-View Attention Learning
- 在端到端驾驶中，大量的专家驾驶演示被用来训练一个代理，通过预测其控制动作来模仿专家。这个过程是对车辆信号（例如，转向角、加速度）的自我监督，不需要额外昂贵的监督（人工标记）。然而，现有的自监督端到端驾驶模型的改进主要为模块化端到端模型提供了空间，在这些模型中，在训练期间需要标记数据密集型格式，例如语义分割。然而，我们认为最新的自监督端到端模型是在低分辨率图像且没有注意力机制的次优条件下开发的。此外，这些模型受限于有限的视野，并且远离人类视觉认知，人类视觉认知可以快速关注相距遥远的场景特征，这一特征提供了有用的归纳偏差。在这种情况下，我们提出了一种新的端到端模型，通过自我监督模仿学习进行训练，利用大视野和自我注意机制。这些设置更有助于代理对驾驶场景的理解，从而带来更好的对人类驾驶员的模仿。仅使用自我监督的训练数据，我们的模型在 CARLA 的 Nocrash 指标中产生了近乎专业的性能，并且可以与需要大量人工标记数据的 SOTA 模型相媲美。为了便于进一步研究，我们的代码将被发布。
Decision Making for Autonomous Driving in Interactive Merge Scenarios via Learning-based Prediction
- 在与人类司机共用的道路上行驶的自主代理必须对交通参与者之间微妙的互动进行推理。这提出了一个极具挑战性的决策制定问题，因为人类行为受到难以建模的多种因素（例如，人类意图和情绪）的影响。本文介绍了自动驾驶的决策方法，重点关注合并到移动交通中的复杂任务，其中不确定性来自其他驾驶员的行为和不完善的传感器测量。我们将问题构建为部分可观察的马尔可夫决策过程 (POMDP)，并使用蒙特卡洛树搜索在线解决。 POMDP 的解决方案是一种执行高级驾驶操作的策略，例如让路给接近的汽车、与前方车辆保持安全距离或并入交通。我们的方法利用从数据中学习的模型来预测未来的交通状态，同时明确考虑周围代理之间的交互。根据这些预测，自动驾驶汽车可以预测其行为对环境的未来影响，并相应地优化其轨迹。我们在仿真中彻底测试了我们的方法，表明自动驾驶汽车可以根据不同情况调整其行为。我们还与其他方法进行了比较，证明了对所考虑的性能指标的改进。

3. Imitation Learning

T-PAMI

TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving
- Kashyap Chitta, Aditya Prakash, Bernhard Jaeger, Zehao Yu, Katrin Renz, Andreas Geiger
- Key: imitation learning, sensor fusion, transformers, attention
- Env: CARLA
- 我们应该如何整合互补传感器的表示以实现自动驾驶？基于几何的融合已显示出对感知的承诺（例如对象检测、运动预测）。然而，在端到端驾驶的背景下，我们发现基于现有传感器融合方法的模仿学习在具有高密度动态代理的复杂驾驶场景中表现不佳。因此，我们提出了 TransFuser，一种使用自注意力整合图像和 LiDAR 表示的机制。我们的方法使用多种分辨率的变换器模块来融合透视图和鸟瞰图特征图。我们通过实验验证了其在具有挑战性的新基准上的有效性，该基准具有长距离和密集的交通，以及 CARLA 城市驾驶模拟器的官方排行榜。在提交时，TransFuser 在驾驶得分方面远远优于 CARLA 排行榜上的所有先前工作。与基于几何的融合相比，TransFuser 将每公里的平均碰撞次数减少了 48%。

CVPR (2021)

Multi-Modal Fusion Transformer for End-to-End Autonomous Driving
- Aditya Prakash, Kashyap Chitta, Andreas Geiger
- Key: multi-modal fusion, transformer, imitation learning
- Env: CARLA
- 互补传感器的表征应该如何集成到自动驾驶中？基于几何的传感器融合在物体检测和运动预测等感知任务中显示出巨大的前景。然而，对于实际的驾驶任务，3D 场景的全局上下文是关键，例如交通灯状态的变化会影响与该交通灯几何距离较远的车辆的行为。因此，单靠几何可能不足以有效融合端到端驾驶模型中的表示。在这项工作中，我们证明了基于现有传感器融合方法的模仿学习策略在存在高密度动态代理和复杂场景的情况下表现不佳，这需要全局上下文推理，例如处理在不受控制的十字路口从多个方向迎面而来的交通 . 因此，我们提出了 TransFuser，一种新颖的多模态融合变压器，使用注意力来集成图像和 LiDAR 表示。我们使用 CARLA 城市驾驶模拟器通过实验验证了我们的方法在涉及复杂场景的城市环境中的有效性。与基于几何的融合相比，我们的方法实现了最先进的驾驶性能，同时将碰撞减少了 76%。
Learning by Watching
- Jimuyang Zhang, Eshed Ohn-Bar
- Key: imitation learning, demonstration, intermediate representation
- Env: CARLA
- 当处于新的情况或地理位置时，人类驾驶员具有非凡的观察他人和学习他们自己可能从未执行过的操作的能力。相比之下，现有的学习驾驶技术排除了这种可能性，因为它们假定可以直接访问具有完全已知观察结果和专家驾驶员操作的仪表化自我车辆。然而，当通过观察他人学习时，非自我车辆无法直接访问此类测量值。因此，在数据被视为高价值资产的应用中，当前的方法完全丢弃了通过间接观察周围车辆可能获得的大部分训练数据。受这一关键见解的启发，我们提出了观察学习 (LbW) 框架，该框架能够在不需要完全了解状态或专家行为的情况下学习驾驶策略。为了增加其数据，即通过新的视角和操作，LbW 通过以下方式利用给定场景中其他车辆的演示：(1) 将自我车辆的观察结果转换为他们的观点，以及 (2) 推断他们的专家行为 . 我们的 LbW 代理学习更强大的驾驶策略，同时实现数据高效学习，包括快速调整策略以适应罕见和新颖的场景。特别是，即使使用现有方法所需的一小部分可用驾驶数据，LbW 也能稳健地驾驶，在原始 CARLA 基准测试中仅用 30 分钟的总驾驶数据就实现了 92% 的平均成功率，仅用 10 分钟就实现了 82% 的成功率。

ICCV (2021)

End-to-End Urban Driving by Imitating a Reinforcement Learning Coach
- Zhejun Zhang, Alexander Liniger, Dengxin Dai, Fisher Yu, Luc Van Gool
- Key: imitation learning, reinforcement learning
- Env: CARLA
- 自动驾驶的端到端方法通常依赖于专家演示。尽管人类是优秀的驾驶员，但对于需要密集的在线策略监督的端到端算法而言，他们并不是好的教练。相反，利用特权信息的自动化专家可以有效地生成大规模的政策内和政策外演示。然而，现有的城市驾驶自动化专家大量使用手工制定的规则，即使在可以获得地面实况信息的驾驶模拟器上也表现不佳。为了解决这些问题，我们培训了一名强化学习专家，将鸟瞰图图像映射到连续的低级动作。在为 CARLA 设置新的性能上限的同时，我们的专家也是更好的教练，为模仿学习代理提供信息监督信号以供学习。在我们的强化学习教练的监督下，具有单目摄像头输入的基线端到端代理实现了专家级的性能。我们的端到端代理实现了 78% 的成功率，同时在 NoCrash-dense 基准和 CARLA LeaderBoard 具有挑战性的公共路线上的最先进性能上推广到新城镇和新天气。

CoRL (2020)

Learning by cheating
- Dian Chen, Brady Zhou, Vladlen Koltun, Philipp Krähenbühl
- Key: imitation learning, sensorimotor control
- Env: CARLA
- 基于视觉的城市驾驶很难。自治系统需要学习感知世界并在其中行动。我们表明，这个具有挑战性的学习问题可以通过将其分解为两个阶段来简化。我们首先训练一个可以访问特权信息的代理。这个特权代理通过观察环境的真实布局和所有交通参与者的位置来作弊。在第二阶段，特权代理充当教师，训练纯粹基于视觉的感觉运动代理。由此产生的感觉运动代理无法访问任何特权信息，也不会作弊。这种两阶段训练过程起初是违反直觉的，但我们分析并通过经验证明了一些重要的优势。我们使用所提出的方法来训练基于视觉的自动驾驶系统，该系统在 CARLA 基准测试和最近的 NoCrash 基准测试中的性能大大优于现有技术。我们的方法首次在原始 CARLA 基准测试中实现了所有任务的 100% 成功率，在 NoCrash 基准测试中创造了新记录，并且与现有技术相比，违规频率降低了一个数量级 . 有关总结这项工作的视频，请参阅此url.
SAM: Squeeze-and-Mimic Networks for Conditional Visual Driving Policy Learning
- Albert Zhao, Tong He, Yitao Liang, Haibin Huang, Guy Van den Broeck, Stefano Soatto
- Key: conditional imitation learning, side task
- Env: CARLA
- 我们描述了一种策略学习方法，用于将视觉输入映射到以转向命令为条件的驾驶控制，该命令通过为驾驶训练的学习表示来利用语义和对象可供性方面的辅助任务。为了学习这种表示，我们训练了一个挤压网络来驱动使用辅助任务的注释作为输入。这种表示对与副任务相关的驾驶相关信息进行编码，同时理想地丢弃与副任务相关但与驾驶无关的麻烦。然后，我们训练模拟网络仅使用图像作为输入来驱动，并使用挤压网络的潜在表示通过模拟损失来监督模拟网络。值得注意的是，我们的目标不是完成副任务，也不是为其学习特征；相反，我们的目标是通过模拟损失来学习直接对驾驶有用的辅助任务注释的表示。我们使用 CARLA 模拟器测试我们的方法。此外，我们引入了一个更具挑战性但更现实的评估协议，该协议认为只有在不违反常见交通规则的情况下才能成功到达目的地。在此 https URL 上提供了总结这项工作的视频，在此 https URL 上提供了代码。

Others

End-to-end Learning of Driving Models from Large-scale Video Datasets
- Huazhe Xu, Yang Gao, Fisher Yu, Trevor Darrell
- Key: multi-modal, imitation learning, large-scale video dataset
- Env: The Berkeley DeepDrive Video Dataset
- 应该从具有不同视觉外观和真实行为的训练数据中学习稳健的感知-动作模型，但目前深度视觉运动策略学习的方法通常仅限于从单个车辆或模拟环境中学习的原位模型。我们提倡从大规模众包视频数据中学习一个通用的车辆运动模型，并开发一个端到端的可训练架构，用于学习从瞬时单目摄像机观察和先前的车辆状态预测未来车辆自我运动的分布。我们的模型采用了一种新颖的 FCN-LSTM 架构，可以从大规模众包车辆动作数据中学习，并利用可用的场景分割边任务来提高特权学习范式下的性能。
Urban Driving with Conditional Imitation Learning
- Jeffrey Hawke, Richard Shen, Corina Gurau, Siddharth Sharma, Daniele Reda, Nikolay Nikolov, Przemyslaw Mazur, Sean Micklethwaite, Nicolas Griffiths, Amar Shah, Alex Kendall
- Key: imitation learning, representation learning, conditional branch
- Env: Real-world driving
- 为现实世界的城市自动驾驶手工制定通用决策规则是很困难的。或者，从易于收集的人类驾驶示范中学习行为也很有吸引力。先前的工作研究了具有许多局限性的自动驾驶模仿学习 (IL)。示例包括仅执行车道跟踪而不是遵循用户定义的路线，仅使用单个相机视图或严重裁剪的帧缺乏状态可观察性，仅横向（转向）控制，但不纵向（速度）控制以及缺乏与交通。重要的是，大多数此类系统主要是在模拟中进行评估的——一个简单的领域，缺乏现实世界的复杂性。在这些挑战的推动下，我们专注于从人类驾驶演示中学习语义、几何和运动的计算机视觉表征。作为我们的主要贡献，我们提出了一种端到端的条件模仿学习方法，结合了对真实车辆的横向和纵向控制，以遵循城市路线和简单的交通。我们通过数据平衡解决固有的数据集偏差问题，在六个月内收集了大约 30 小时的演示来训练我们的最终政策。我们通过在欧洲城市街道上行驶 35 公里的新路线来评估我们在自动驾驶汽车上的方法。
Learning a Decision Module by Imitating Driver’s Control Behaviors Junning
- Junning Huang, Sirui Xie, Jiankai Sun, Qiurui Ma, Chunxiao Liu, Jianping Shi, Dahua Lin, Bolei Zhou
- Key: hybrid framework, imitation learning, safety driving
- Env: CARLA
- 自动驾驶系统具有感知、决策、规划和控制的管道。决策模块处理来自感知模块的信息，并指挥下游规划和控制模块的执行。另一方面，最近深度学习的成功表明该管道可以被端到端的神经控制策略所取代，但是，数据驱动的神经网络的安全性无法得到很好的保证。在这项工作中，我们提出了一个混合框架，通过端到端模仿学习在经典模块化管道中学习神经决策。这种混合框架可以保留经典管道的优点，例如在从数据中学习复杂的驾驶决策时严格执行物理和逻辑约束。为了规避人类驾驶决策的模糊注释，我们的方法通过模仿低级控制行为来学习高级驾驶决策。我们在模拟实验中表明，我们的模块化驾驶代理可以将其驾驶决策和控制推广到基于规则的程序失败的各种复杂场景。它还可以生成比端到端神经策略更平滑、更安全的驾驶轨迹。

4. Autonomous Driving

CVPR

(2023)Planning-oriented Autonomous Driving (Award Candidates)
(2023)Unsupervised 3D Point Cloud Representation Learning by Triangle Constrained Contrast for Autonomous Driving Poster Session TUE-PM
(2023)MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving Poster Session THU-PM
(2023)Localized Semantic Feature Mixers for Efficient Pedestrian Detection in Autonomous Driving Poster Session TUE-PM
(2023)Weakly Supervised Class-agnostic Motion Prediction for Autonomous Driving Poster Session THU-AM
(2023)TBP-Former: Learning Temporal Bird’s-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous Driving Poster Session TUE-AM
(2023)Neural Map Prior for Autonomous Driving Poster Session THU-AM
(2023)Planning-oriented Autonomous Driving Poster Session THU-AM
(2023)Azimuth Super-Resolution for FMCW Radar in Autonomous Driving Poster Session THU-AM
(2023)Temporal Consistent 3D LiDAR Representation Learning for Semantic Perception in Autonomous Driving Poster Session TUE-PM
(2023)RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in Autonomous Driving Poster Session TUE-PM
(2023)Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving Poster Session WED-AM
(2023)Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving Poster Session THU-PM
(2023)Understanding the Robustness of 3D Object Detection with Bird’s-Eye-View Representations in Autonomous Driving Poster Session THU-PM
(2022)Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving
(2022)Investigating the Impact of Multi-LiDAR Placement on Object Detection for Autonomous Driving
(2022)Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving
(2022)Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data
(2022)Exploiting Temporal Relations on Radar Perception for Autonomous Driving
(2022)LTP: Lane-Based Trajectory Prediction for Autonomous Driving
(2022)Rope3D: The Roadside Perception Dataset for Autonomous Driving and Monocular 3D Object Detection Task
(2022)Unifying Panoptic Segmentation for Autonomous Driving

5. 和决策相关的

Research_of_Decision-Making for Autonomous Driving
(综述,ITS) A Survey of Deep RL and IL for Autonomous Driving Policy Learning
自动驾驶 (AD) 代理根据在线感知结果生成驾驶策略，这些结果是在多个抽象级别获得的，例如行为规划、运动规划和控制。驾驶策略对于实现安全、高效、和谐的驾驶行为至关重要，而 AD 代理在复杂场景中仍然面临着巨大的挑战。由于它们在机器人技术和视频游戏等领域的成功应用，近年来使用深度强化学习 (DRL) 和深度模仿学习 (DIL) 技术推导 AD 策略得到了广泛的研究工作。本文是对这一工作主体的全面调查，分三个层次进行：首先，从系统角度构建文献研究的分类，其中将 DRL/DIL 模型集成到 AD 架构中的五种模式是确定。其次，全面回顾了用于执行特定 AD 任务的 DRL/DIL 模型的公式，其中涵盖了模型状态和动作空间以及强化学习奖励的各种设计。最后，对 DRL/DIL 模型如何解决 AD 应用中有关驾驶安全、与其他交通参与者的交互以及环境不确定性的关键问题进行了深入审查。据我们所知，这是第一个关注使用 DRL/DIL 进行 AD 策略学习的调查，同时从系统、任务驱动和问题驱动的角度进行了研究。我们分享和讨论调查结果，这可能会导致未来对各种主题的调查。
(综述) Deep reinforcement learning based control for Autonomous Vehicles in CARLA
如今，人工智能 (AI) 在几乎所有技术领域都在突飞猛进，而自动驾驶汽车 (AV) 研究就是其中之一。本文提出在自动驾驶汽车的控制层中使用基于深度学习 (DL) 的算法。更具体地说，实施深度强化学习 (DRL) 算法，例如深度 Q 网络 (DQN) 和深度确定性策略梯度 (DDPG)，以便比较它们之间的结果。这项工作的目的是获得训练有素的模型，应用 DRL 算法，能够向车辆发送控制命令以按照确定的路线正确有效地导航。此外，对于每个算法，都提供了多个代理作为解决方案，以便这些代理中的每一个使用不同的数据源来实现车辆控制命令。为此，使用了诸如 CARLA 之类的开源模拟器，使系统能够在没有任何风险的情况下执行大量测试，进入超现实的城市模拟环境，这在现实世界中是不可想象的。得到的结果表明，DQN 和 DDPG 都达到了目标，但 DDPG 获得了更好的性能。 DDPG 执行的轨迹与 LQR 的经典控制器非常相似。在这两种情况下，RMSE 都低于 0.1m，遵循范围为 180-700m 的轨迹。最后，对一些结论和未来的工作进行了评论。
(综述) Deep Reinforcement Learning for Autonomous Driving: A Survey
随着深度表示学习的发展，强化学习（RL）领域已经成为一个强大的学习框架，现在能够在高维环境中学习复杂的策略。这篇综述总结了深度强化学习 (DRL) 算法，并提供了采用 (D)RL 方法的自动驾驶任务的分类，同时解决了自动驾驶代理在现实世界部署中的关键计算挑战。它还描述了相关但不是经典 RL 算法的相邻领域，例如行为克隆、模仿学习、逆向强化学习。讨论了模拟器在训练代理中的作用，验证、测试和强化 RL 中现有解决方案的方法。
(综述) (2022) Analysis of Reinforcement Learning in Autonomous Vehicles
本文着眼于自动驾驶汽车的运行机制：尤其是强化学习。 Waymo、特斯拉和通用汽车等公司使用的机器学习技术使他们能够生产高端自动驾驶系统。本文回顾了这些公司使用的强化学习技术和算法，并针对他们的大多数车辆所面临的问题提出了替代解决方案。此外，本文还深入分析了自动驾驶汽车使用的 Q 学习技术。
(综述) Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles
近年来，自动驾驶汽车领域的学术研究非常受欢迎，涉及传感器技术、V2X 通信、安全、安保、决策制定、控制，甚至法律和标准化规则等多个主题。除了经典的控制设计方法外，几乎所有这些领域都存在人工智能和机器学习方法。另一部分研究侧重于运动规划的不同层次，例如战略决策、轨迹规划和控制。机器学习本身已经开发出多种技术，本文介绍了其中一个领域，即深度强化学习 (DRL)。本文提供了对分层运动规划问题的见解，并描述了 DRL 的基础知识。设计这样一个系统的主要元素是环境的建模、建模抽象、状态和感知模型的描述、适当的奖励以及底层神经网络的实现。本文描述了车辆模型、模拟可能性和计算要求。介绍了不同层和观察模型的战略决策，例如，连续和离散状态表示、基于网格和基于相机的解决方案。本文调查了根据自动驾驶的不同任务和级别系统化的最先进解决方案，例如跟车、车道保持、轨迹跟踪、合并或在密集交通中驾驶。最后，讨论了未解决的问题和未来的挑战。
(CVPR 2020) End-to-End Model-Free Reinforcement Learning for Urban Driving using Implicit Affordances
解读博客，博客结论：
- 作者没有公布自己的数据集，也没有公开怎样拿到的expert数据以训练出这样一个model的，而是直接给了一个稍微训练好的model权重文件
- 实际有了model后，整个流程就是收到图片，输出resnet18后的数据，分两道：
- 走到semantic decoder，输出out_seg
- 走到flatten展开一维，然后再经过不同的Linear配置，各自输出：state_output, dist_to_tl_output, delta_position_yaw_output
- 纯看代码看不出用来RL，即使是DQN也只是cat数据一起，经过几层的NoiseLayer which is nn.Linear
(ICCV 2021) End-to-End Urban Driving by Imitating a Reinforcement Learning Coach
解读博客; code
(ICCV 2021) Learning to drive from a world on rails
解读博客; code
(ICCV 2021) MEDIRL: Predicting the Visual Attention of Drivers via Maximum Entropy Deep Inverse Reinforcement Learning
受人类视觉注意力的启发，我们提出了一种新的逆强化学习公式，使用最大熵深度逆强化学习 (MEDIRL) 来预测驾驶员在事故多发情况下的视觉注意力。 MEDIRL 通过从细心的驾驶员记录的眼睛注视模式中学习任务敏感的奖励函数来预测导致最大奖励的注视位置。此外，我们还介绍了 EyeCar，这是一种用于事故多发情况下的新驾驶员注意力数据集。我们进行了综合实验，以在三个常见基准（DR(eye)VE、BDD-A、DADA-2000）和我们的 EyeCar 数据集上评估我们提出的模型。结果表明，MEDIRL 在预测注意力方面优于现有模型，并达到了最先进的性能。我们提出了广泛的消融研究，以提供对我们提出的模型的不同特征的更多见解。code
(T-PAMI 2022) MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning
安全驾驶需要人类和智能代理的多种能力，例如对看不见的环境的泛化能力、周围交通的安全意识以及复杂的多代理设置中的决策制定。尽管强化学习 (RL) 取得了巨大成功，但由于缺乏集成环境，大多数 RL 研究工作都分别研究了每种能力。在这项工作中，我们开发了一个名为 MetaDrive 的新驾驶模拟平台，以支持机器自主的可推广强化学习算法的研究。 MetaDrive 是高度组合的，它可以从程序生成和真实数据导入中生成无数不同的驾驶场景。基于 MetaDrive，我们在单代理和多代理设置中构建了各种 RL 任务和基线，包括跨未见过场景的基准通用性、安全探索和学习多代理流量。对程序生成的场景和真实场景进行的泛化实验表明，增加训练集的多样性和规模可以提高 RL 代理的泛化能力。我们进一步评估了 MetaDrive 环境中的各种安全强化学习和多代理强化学习算法，并提供了基准。code
(ICRA 2022) Driving in Dense Traffic with Model-Free Reinforcement Learning
传统的规划和控制方法可能无法为自动驾驶汽车找到可行的轨迹以在道路上的密集交通中执行。这是因为在这些场景中，可供车辆行驶通过的时空无障碍体积非常小。然而，这并不意味着这项任务是不可行的，因为众所周知，人类司机能够通过利用其他司机的合作来拉开差距，从而在密集的交通中行驶。传统方法没有考虑到代理人采取的行动会影响道路上其他车辆的行为这一事实。在这项工作中，我们依靠深度强化学习的能力来对此类交互进行隐式建模，并学习对自动驾驶汽车动作空间的连续控制策略。我们考虑的应用程序需要我们的代理协商并在道路上打开一个缺口，以便成功合并或改变车道。我们的策略学会了反复探索目标车道，同时试图找到一个安全的地方进入。我们与两种基于模型预测控制的算法进行了比较，表明我们的策略在模拟中优于它们。code
(ICRA 2022) Deep Drifting: Autonomous Drifting of Arbitrary Trajectories Using Deep Reinforcement Learning
在本文中，深度神经网络使用强化学习进行训练，以便在由一系列路点定义的任意轨迹上漂移。第一步，在训练过程中使用高度精确的车辆模拟。然后，将获得的策略在自建模型车上进行细化和验证。所选择的奖励函数的灵感来自于现实生活中漂移比赛的计分过程。它保持简单，因此适用于非常一般的场景。实验结果表明，一个相对较小的网络，仅给定少量测量和控制输入，已经取得了出色的性能。在仿真中，学习到的控制器能够可靠地保持稳态漂移。此外，它能够泛化到任意的、以前未知的轨迹和不同的驾驶条件。将学习到的控制器转移到模型车后，它在物理约束条件下的表现也出奇地好。
(ICRA 2022) Deep Reinforcement Learning Based Game-Theoretic Decision-Making for Autonomous Vehicles
这封信提出了一种结合深度强化学习实施博弈论决策的方法，允许车辆通过使用 2D 激光雷达获得对环境的观察来在无信号交叉口做出决策。这项工作的主要新颖之处在于在复杂的交互场景中同时对多辆车进行建模，作为具有保守、激进和自适应驾驶行为的决策者。博弈模型允许在不使用任何特定协调或车辆对车辆通信的情况下预测其他车辆对自我车辆运动的反应。博弈的解决方案基于认知层次推理，它使用深度强化学习算法在现实模拟器（ROS-Gazebo）中获得针对特定目标的近最优策略。训练好的模型经过训练后在模拟器上测试成功。实验表明，真实世界中实验室汽车的性能与模拟环境中的性能是一致的，这对于提高自动驾驶汽车的安全性以及降低其对道路测试的依赖性具有重要意义。
Explaining Autonomous Driving by Learning End-to-End Visual Attention
目前基于深度学习的自动驾驶方法产生了令人印象深刻的结果，也导致在某些受控场景中进行生产部署。最流行和最吸引人的方法之一依赖于直接从传感器感知的数据中学习车辆控制。这种端到端的学习范式可以应用于经典的监督设置和使用强化学习。尽管如此，与其他学习问题一样，这种方法的主要缺点是缺乏可解释性。事实上，深度网络将充当黑匣子，根据先前看到的驾驶模式输出预测，而不会就做出此类决定的原因提供任何反馈。虽然要获得最佳性能，从学习代理获得可解释的输出并不重要，尤其是在这样一个安全关键领域，但了解网络的行为方式至关重要。这与解释此类系统的故障特别相关。在这项工作中，我们建议训练一个配备注意力模型的基于模仿学习的代理。注意力模型使我们能够了解图像的哪一部分被认为是最重要的。有趣的是，在使用 CARLA 驾驶模拟器的标准基准测试中，注意力的使用也带来了卓越的性能。
(2023) Identify, Estimate and Bound the Uncertainty of Reinforcement Learning for Autonomous Driving
深度强化学习 (DRL) 已成为开发更智能的自动驾驶汽车 (AV) 的一种很有前途的方法。 AV 上的典型 DRL 应用是训练基于神经网络的驾驶策略。然而，神经网络的黑盒性质可能会导致不可预测的决策失败，从而使此类 AV 变得不可靠。为此，这项工作提出了一种方法来识别和保护 DRL 驾驶策略的不可靠决策。基本思想是估计和约束策略的性能不确定性，量化由于训练数据不足或网络拟合错误导致的潜在性能下降。通过限制不确定性，DRL 模型的性能始终优于基线策略。数据不足引起的不确定性采用bootstrapped方法进行估计。然后，使用集成网络估计由网络拟合误差引起的不确定性。最后，添加基线策略作为性能下限以避免潜在的决策失败。整个框架称为不确定性约束强化学习 (UBRL)。以无保护左转驾驶案例为例，对具有不同训练数据量的 DRL 策略评估了拟议的 UBRL。结果表明，UBRL 方法可以识别 DRL 策略的潜在不可靠决策。即使 DRL 策略没有经过良好训练且具有很高的不确定性，UBRL 也保证优于基线策略。同时，UBRL 的性能随着训练数据的增加而提高。这种方法对于实际道路驾驶的 DRL 应用很有价值，并提供了评估 DRL 策略的指标。
(2023) Autonomous Vehicle Driving Path Control with Deep Reinforcement Learning
自动驾驶汽车 (AV) 使用人工智能 (AI) 技术来控制车辆，无需人工干预。与人类驾驶车辆相比，自动驾驶汽车的实施具有优势，例如减少因人为错误造成的道路交通死亡、提高交通效率和最大限度地减少碳排放以保护环境。本文的主要目标是开发一种 AV，它可以在跟随前车时保持安全距离并保持在道路中心线。提议的用于自动驾驶模拟的深度强化学习 (DRL) 算法是深度确定性策略梯度 (DDPG)。在本文中，创建了路径跟踪控制、奖励函数、演员网络和评论家网络的 DDPG 模型。 DDPG 智能体一直训练到收到 1650 集奖励为止。训练结束后，对所提出的 DDPG 代理进行了仿真以验证其性能。然后，调整 mini-batch size 和 actor learning rate 这两个超参数的值以获得最短的训练时间。
(2022) DQN-based Reinforcement Learning for Vehicle Control of Autonomous Vehicles Interacting With Pedestrians
近年来，自动驾驶汽车 (AV) 已成为热门的研究课题，因为它们能够通过减少交通事故和人身伤害来提高道路安全。车辆控制是自动驾驶最重要的部分，它在行驶过程中调整 AV 的转向角和速度。最近，车辆控制使用有效的人工智能 (AI)，尤其是深度学习 (DL) 技术取得了相应的进展。最近的工作仅限于使用强化学习 (RL) 技术来控制 AV 仅遵循其路径，而不考虑其他道路使用者，尤其是行人。在本文中，我们提出了一种基于强化学习的新型模型，该模型使用深度 Q 网络在涉及车辆和行人的复杂场景中控制 AV。 AV 学习几种动作的策略，以便在不与其他道路参与者发生事故的情况下到达目的地。我们的方法使用 CARLA 模拟器进行了测试和验证。我们的结果表明，随着时间的推移，所提出的方法在平均奖励、成功率和碰撞率方面取得了更好的性能。
Learning to Drive Like Human Beings: A Method Based on Deep Reinforcement Learning
在本文中，通过学习像人类一样驾驶，提出了一种新的路径跟踪框架。首先，通过学习专业驾驶员的经验，采用模仿算法（行为克隆）对深度强化学习（DRL）算法进行初始化。其次，采用连续的、确定性的、无模型的深度强化学习算法，通过反复试验在线优化我们的 DRL 模型。通过结合行为克隆和深度强化学习算法，DRL 模型可以使用一些易于测量的车辆状态参数和环境信息作为输入，快速学习有效的路径跟踪策略。 DRL算法采用Actor-Critic结构。为了加快DRL模型的收敛速度，提高学习效果，我们针对两种不同的动作输出（方向盘转角和车速）提出了双演员网络结构，并构建了一个首席批评家网络来指导同时更新双演员网络的过程。基于这种双角色网络结构，我们可以挑选出一些更重要的状态信息作为不同动作输出的状态输入。此外，还为自动驾驶提出了一种奖励机制。最后进行了仿真训练和实验测试，结果证实本文提出的框架比原算法具有更高的数据效率，并且训练出的DRL模型能够准确跟踪参考路径，具有泛化能力不同的道路。
Driving Tasks Transfer Using Deep Reinforcement Learning for Decision-Making of Autonomous Vehicles in Unsignalized Intersection
知识转移是一个很有前途的概念，可以实现自动驾驶汽车的实时决策。本文构建了一个迁移深度强化学习 (RL) 框架来转换交叉路口环境中的驾驶任务。无信号交叉口的驾驶任务被分为左转、右转和自动车辆直行。自主自我车辆 (AEV) 的目标是高效、安全地通过十字路口。该目标促使所研究的车辆提高速度并避免与其他车辆相撞。从一个驾驶任务中学习到的决策策略通过三个转移规则转移到另一个驾驶任务中并进行评估。仿真结果表明，与类似任务相关的决策策略具有可移植性，成功率高。这表明所提出的控制框架可以减少时间消耗并实现在线实施。因此，转移 RL 概念有助于建立自动驾驶汽车的实时决策策略。
Decision Making for Autonomous Driving Via Multimodal Transformer and Deep Reinforcement Learning
自动驾驶中的决策模块在传感模块处理的环境信息的基础上，综合环境信息和车辆信息，使自主车辆产生安全合理的驾驶行为。考虑到自动驾驶汽车行驶环境的复杂性和多变性，近年来研究人员开始将深度强化学习（DRL）应用于自动驾驶控制策略的研究中。在本文中，我们应用结合多模态变换器和 DRL 的算法框架来解决复杂场景中的自动驾驶决策问题。我们使用 ResNet 和 transformer 来提取 LiDAR 点云和图像的特征。我们使用深度确定性策略梯度（DDPG）算法来完成后续的自动驾驶决策任务。并且我们利用信息瓶颈来提高RL的采样效率。我们使用 CARLA 模拟器来评估我们的方法。结果表明，我们的方法允许代理学习更好的驾驶策略。
(参考，ITS) A Survey on Imitation Learning Techniques for End-to-End Autonomous Vehicles
最先进的自动驾驶汽车决策和规划方法已经摆脱了手动设计的系统，而是专注于通过模仿学习 (IL) 来利用专家演示的大规模数据集。在本文中，我们对 IL 方法进行了全面回顾，主要针对自动驾驶汽车中基于端到端系统的范例。我们将文献分为三个不同的类别：1) 行为克隆 (BC)，2) 直接策略学习 (DPL) 和 3) 逆向强化学习 (IRL)。对于这些类别中的每一个，都全面回顾和总结了当前最先进的文献，并确定了未来的研究方向，以促进端到端自动驾驶汽车基于模仿学习的系统的发展。由于深度学习技术的数据密集型特性，还审查了当前可用的端到端自动驾驶数据集和模拟器。
(参考，ITS) A survey of deep RL and IL for autonomous driving policy learning
(参考，ITS) Driving behavior modeling using naturalistic human driving data with inverse reinforcement learning
驾驶行为建模对于设计安全、智能和个性化的自动驾驶系统具有重要意义。在本文中，利用了一种模拟人类决策机制的基于内部奖励函数的驾驶模型。为了从自然人类驾驶数据中推断奖励函数参数，我们提出了一个关于人类驾驶行为的结构假设，该假设侧重于离散的潜在驾驶意图。它将连续行为建模问题转换为离散设置，从而使最大熵逆强化学习 (IRL) 易于学习奖励函数。具体来说，采用多项式轨迹采样器来生成考虑高层意图的候选轨迹，并在最大熵 IRL 框架中逼近配分函数。建立了考虑自我与周围车辆之间交互行为的环境模型，以更好地估计生成的轨迹。所提出的方法应用于从 NGSIM 高速公路驾驶数据集中学习个体人类驾驶员的个性化奖励函数。定性结果表明，学习到的奖励函数能够明确表达不同驾驶员的偏好并解释他们的决定。定量结果表明，学习到的奖励函数是稳健的，这表现为在测试条件下应用奖励函数时，与人类驾驶轨迹的接近程度仅略有下降。对于测试性能，个性化建模方法优于一般建模方法，显着减少了人性化建模错误（衡量准确性的自定义指标），与其他基线方法相比，这两种方法提供了更好的结果。
(参考) Incorporating multi-context into the traversability map for urban autonomous driving using deep inverse reinforcement learning
在具有周围代理的城市环境中进行自动驾驶仍然具有挑战性。关键挑战之一是准确预测可遍历性地图，该地图概率性地代表未来轨迹，考虑多种背景：惯性、环境和社会。为了解决这个问题，已经提出了各种方法；但是，他们主要侧重于考虑个人背景。此外，大多数研究利用昂贵的驾驶环境先验信息（如高清地图），这不是一种可扩展的方法。在这项研究中，我们扩展了一种基于深度逆向强化学习的方法，该方法可以预测可通行性地图，同时在动态环境中结合自动驾驶的多个上下文。我们没有使用昂贵的驾驶场景先验信息，而是提出了一种新颖的深度神经网络来从传感数据中提取上下文线索，并将它们有效地整合到输出中，即奖励地图。基于奖励图，我们的方法预测了以自我为中心的可遍历性图，该图代表了合理且社会可接受的未来轨迹的概率分布。所提出的方法在具有各种基线的现实世界交通场景中进行了定性和定量评估。实验结果表明，与其他基线方法相比，我们的方法提高了预测精度，并且可以预测类似于人类驾驶员所遵循的未来轨迹。
(参考) Driving in real life with inverse reinforcement learning
在本文中，我们介绍了第一个基于学习的规划器，使用逆向强化学习 (IRL) 在密集的城市交通中驾驶汽车。我们的规划器 DriveIRL 生成一组不同的轨迹建议，使用轻量级且可解释的安全过滤器过滤这些轨迹，然后使用学习模型对每个剩余轨迹进行评分。然后，我们的自动驾驶车辆的低级控制器会跟踪最佳轨迹。我们在最大熵 IRL 框架内，在拉斯维加斯 500 多个小时的真实世界专家驾驶演示数据集上训练我们的轨迹评分模型。 DriveIRL 的优势包括：由于仅学习轨迹评分函数而导致的简单设计、相对可解释的特征以及强大的真实世界性能。我们在拉斯维加斯大道上验证了 DriveIRL，并展示了在繁忙交通中的全自动驾驶，包括涉及切入、前车突然制动以及酒店接送区的场景。我们的数据集将公开，以帮助进一步研究这一领域。
ARXIV…….ACM….
IEEE Transactions on Intelligent Transportation Systems (ITS)

打赏作者

1. Reinforcement Learning

JMRL

Artificial Intelligence

CVPR

ICCV (2021)

T-PAMI (2022)

ECCV (2022)

ICLR(2023)

NIPS(2022)

IJCAI (2023)

ICRA (2022)

Others

IEEE Reinforcement Learning in Autonomous Driving/Vehicle

2. arxiv Reinforcement Learning in Autonomous Vehicle/Driving (2023)

3. Imitation Learning

T-PAMI

CVPR (2021)

ICCV (2021)

CoRL (2020)

Others

4. Autonomous Driving

CVPR

5. 和决策相关的

相关文章：

发表回复 取消回复

发表回复取消回复