Reinforcement Learning Toolbox 提供了一个 App、多个函数和一个 Simulink 模块,可与 DQN、PPO、SAC 和 DDPG 等强化学习算法结合使用来进行策略训练。您可以使用这些策略为复杂应用(如资源分配、机器人和自主系统)实现控制器和决策算法。
借助该工具箱,您可以使用深度神经网络或查找表来表示策略和价值函数,并使用 MATLAB 或 Simulink 创建环境模型,通过与环境交互来训练策略和函数。您可以评估该工具箱中提供的单智能体或多智能体强化学习算法,也可以开发自己的算法。您可以使用超参数设置进行试验,监控训练进度,并通过 App 以交互方式或编程方式仿真经过训练的智能体。为了提高训练性能,可以在多个 CPU、GPU、计算机集群和云上并行运行仿真(需要 Parallel Computing Toolbox 和 MATLAB Parallel Server)。
通过 ONNX™ 模型格式,可以从 TensorFlow™ Keras 和 PyTorch 等深度学习框架导入现有策略(需要 Deep Learning Toolbox)。您可以生成优化的 C、C++ 和 CUDA® 代码,以便将经过训练的策略部署到微控制器和 GPU。该工具箱包括参考示例,可帮助您快速入门。
强化学习智能体
使用 DQN、PPO 和 SAC 等常见算法创建无模型和基于模型的强化学习智能体。或者,使用提供的模板开发您自己的自定义算法。使用 RL Agent 模块将您的智能体集成到 Simulink 中。
奖励信号
创建奖励信号,衡量智能体实现目标的成功度。根据 Model Predictive Control Toolbox 或 Simulink Design Optimization 中定义的控制设定自动生成奖励函数。
分布式计算
使用 Parallel Computing Toolbox 和 MATLAB Parallel Server 借助多核计算机、云资源或计算集群加快训练速度。利用 GPU 加速梯度计算和预测等操作。
代码生成和部署
根据经过训练的策略自动生成 C/C++ 和 CUDA 代码以部署到嵌入式设备。使用 MATLAB Compiler 和 MATLAB Production Server 将经过训练的策略通过独立应用程序、C/C++ 共享库以及其他方式部署到生产系统中。
产品资源:
“5G 是一项关键基础架构,我们必须保护它免遭恶意攻击。Reinforcement Learning Toolbox 使我们能够快速评估 5G 漏洞并确定缓解方法。”
Ambrose Kam,洛克希德·马丁公司