Reinforcement Learning Toolbox

Reinforcement Learning Toolbox

使用强化学习设计和训练策略

有疑问吗？联系销售人员.

Reinforcement Learning Toolbox 提供了一个 App、多个函数和一个 Simulink 模块，可与 DQN、PPO、SAC 和 DDPG 等强化学习算法结合使用来进行策略训练。您可以使用这些策略为复杂应用（如资源分配、机器人和自主系统）实现控制器和决策算法。

借助该工具箱，您可以使用深度神经网络或查找表来表示策略和价值函数，并使用 MATLAB 或 Simulink 创建环境模型，通过与环境交互来训练策略和函数。您可以评估该工具箱中提供的单智能体或多智能体强化学习算法，也可以开发自己的算法。您可以使用超参数设置进行试验，监控训练进度，并通过 App 以交互方式或编程方式仿真经过训练的智能体。为了提高训练性能，可以在多个 CPU、GPU、计算机集群和云上并行运行仿真（需要 Parallel Computing Toolbox 和 MATLAB Parallel Server）。

通过 ONNX™ 模型格式，可以从 TensorFlow™ Keras 和 PyTorch 等深度学习框架导入现有策略（需要 Deep Learning Toolbox）。您可以生成优化的 C、C++ 和 CUDA^® 代码，以便将经过训练的策略部署到微控制器和 GPU。该工具箱包括参考示例，可帮助您快速入门。

Reinforcement Learning Toolbox 中提供的训练算法集合，如 DDPG、DQN、SAC 和 PPO。

强化学习智能体

使用 DQN、PPO 和 SAC 等常见算法创建无模型和基于模型的强化学习智能体。或者，使用提供的模板开发您自己的自定义算法。使用 RL Agent 模块将您的智能体集成到 Simulink 中。

策略与学习算法 | 强化学习，第 3 部分 (17:51)

强化学习设计器

交互式设计、训练和仿真强化学习智能体。将经过训练的智能体导出到 MATLAB，以供进一步使用和部署。

文档 | 示例

奖励信号

创建奖励信号，衡量智能体实现目标的成功度。根据 Model Predictive Control Toolbox 或 Simulink Design Optimization 中定义的控制设定自动生成奖励函数。

策略表示

通过使用工具箱建议的神经网络架构快速入门。或者，浏览查找表，或使用 Deep Learning Toolbox 层和深度网络设计器手动定义神经网络策略。

强化学习训练

通过与环境的交互或使用现有数据来训练智能体。探索单智能体和多智能体训练。记录和查看训练数据，并随时监控进度。

多智能体强化学习简介 (14:43)

文档 | 示例

多个工作进程并行生成数据以用于分布式强化学习。

分布式计算

使用 Parallel Computing Toolbox 和 MATLAB Parallel Server 借助多核计算机、云资源或计算集群加快训练速度。利用 GPU 加速梯度计算和预测等操作。

文档 | 示例

四足机器人的 Simulink 模型截图。

环境建模

使用 MATLAB 和 Simulink 对与强化学习智能体无缝交互的环境进行建模。与第三方建模工具对接。

强化学习快速入门 (9:30)

代码生成和部署

根据经过训练的策略自动生成 C/C++ 和 CUDA 代码以部署到嵌入式设备。使用 MATLAB Compiler 和 MATLAB Production Server 将经过训练的策略通过独立应用程序、C/C++ 共享库以及其他方式部署到生产系统中。

文档 | 示例

参考示例

为机器人、自动驾驶、标定、调度和其他应用设计控制器和决策算法。借助我们的参考示例实现快速入门。

产品资源：

文档示例视频技术文章函数模块要求发行说明

“5G 是一项关键基础架构，我们必须保护它免遭恶意攻击。Reinforcement Learning Toolbox 使我们能够快速评估 5G 漏洞并确定缓解方法。”

查看更多客户案例

免费试用 Reinforcement Learning Toolbox

立即探索各种可能。

立即开始

准备购买？

获取报价并了解相关产品。

查看定价联系销售人员

您是学生吗？

您的学校可能已拥有 Campus-Wide License 并允许您直接使用 MATLAB、Simulink 和其他附加产品。

下一步是什么？

电子书

使用 MATLAB 和 Simulink 进行强化学习

教程

强化学习入门之旅

系列视频