Reinforcement Learning Toolbox

使用强化学习设计和训练策略

 

Reinforcement Learning Toolbox™ 使用强化学习算法(包括 DQN、A2C 和 DDPG)为训练策略提供函数和块。您可以使用这些策略为复杂系统(如机器人和自主系统)实现控制器和决策算法。您可以使用深度神经网络、多项式或查找表来实现策略。

使用该工具箱,您可以通过让策略与 MATLAB® 或 Simulink® 模型代表的环境进行交互来训练策略。您可以评估算法,试验超参数设置并监控训练进度。为了提高训练性能,您可以在云端、计算机集群和 GPU 上并行运行仿真(使用 Parallel Computing Toolbox™ 和 MATLAB Parallel Server™)。

通过 ONNX™ 模型格式,可以从诸如 TensorFlow™ Keras 和 PyTorch 等深度学习框架导入现有策略(使用 Deep Learning Toolbox™)。您可以生成优化的 C、C++ 和 CUDA 代码,以便在微控制器和 GPU 上部署经过训练的策略。

该工具箱包括了使用强化学习来设计用于机器人和自动驾驶应用的控制器的参考示例。

强化学习代理

实现 MATLAB 和 Simulink 代理来训练深度神经网络所代表的策略。使用内置的和自定义的强化学习算法。

强化学习算法

使用 Deep Q-Network (DQN)、Advantage Actor Critic (A2C)、深度确定性政策梯度 (Deep Deterministic Policy Gradients, DDPG) 及其他内置算法实现代理。使用模板为培训策略实现自定义代理。

代理包括策略和算法。

使用深度神经网络的策略和价值函数表示形式

对具有大型状态动作空间的复杂系统,使用深度神经网络策略。使用 Deep Learning Toolbox 中的网络和架构来定义策略。导入 ONNX 模型以实现与其他深度学习框架的互操作性。

用于代理的 Simulink 块

在 Simulink 中实现和训练强化学习代理。

Simulink 的强化学习代理块。

环境建模

创建 MATLAB 和 Simulink 环境模型。描述系统动态并为训练代理提供观察和奖励信号。

Simulink 和 Simscape 环境

使用 Simulink 和 Simscape™ 模型来表示环境。指定模型中的观察、动作和奖励信号。

倒立摆的 Simulink 环境模型。

MATLAB 环境

使用 MATLAB 函数和类来表示环境。在 MATLAB 文件中指定观察、动作和奖励变量。

车杆系统的 MATLAB 环境。

加速训练

使用 GPU、云和分布式计算加快训练速度。

分布式计算和多核加速

使用 Parallel Computing Toolbox 和 MATLAB Parallel Server 在 多核计算机、云资源或计算机集群中运行并行仿真,加快训练。

使用并行计算加速训练。

GPU 加速

使用高性能 NVIDIA® GPU 加速深度神经网络训练和推断。将 MATLAB 与 Parallel Computing Toolbox 和大多数启用 CUDA® 的 NVIDIA GPU(计算能力 3.0 或更高)结合使用。

使用 GPU 加快训练速度。

代码生成和部署

将经过训练的策略部署到嵌入式设备或与各种生产系统集成。

代码生成

使用 GPU Coder™ 从代表经过训练的策略的 MATLAB 代码生成优化的 CUDA 代码。使用 MATLAB Coder™ 生成 C/C++ 代码以部署策略。

使用 GPU Coder 生成 CUDA 代码。

MATLAB Compiler 支持

使用 MATLAB Compiler™ 和 MATLAB Compiler SDK™,将经过训练的策略部署为 C/C++ 共享库、Microsoft® .NET 汇编、Java® 类和 Python® 程序包。

将策略打包为独立程序并共享。

参考示例

使用强化学习,为机器人、自动驾驶汽车和其他系统设计控制器。

入门

实现基于强化学习的控制器,用于解决倒立摆平衡、网格世界导航及车杆系统平衡等问题。

解决网格世界迷宫问题。

自动驾驶应用

为自适应巡航控制和车道保持辅助系统设计控制器。

训练车道保持辅助系统。

机器人

使用强化学习设计机器人控制器。

使用强化学习训练机器人走路。

观看本系列的视频,了解强化学习的相关信息

有疑问吗?

联系 Reinforcement Learning Toolbox 技术专家 Emmanouil Tzorakoleftherakis

最新特性

PPO 代理

用近端策略优化 (PPO) 算法训练策略,以提高训练稳定性

并行代理仿真

并行运行多个代理仿真,以验证经过训练的策略

参考示例

为机器人、控制设计等具体应用训练强化学习策略

关于这些功能和相应函数的详细信息,请参阅发行说明

获取免费试用版

30 天探索触手可及。

马上下载

准备购买?

获取详细价格和并探索相关产品。

您是学生吗?

获得 MATLAB 和 Simulink 学生版软件。

了解更多