Main Content

本页翻译不是最新的。点击此处可查看最新英文版本。

增强学习

通过与未知动态环境交互来训练深度神经网络智能体

强化学习是一种目标导向的计算方法,其中智能体通过与未知动态环境交互来学习执行任务。在训练期间,学习算法会更新智能体策略参数。学习算法的目标是找到最佳策略,最大化在任务期间获得的长期回报。

根据智能体的类型,策略可表示为一个或多个策略和价值函数。您可以使用深度神经网络来实现这些表示。然后可以使用 Reinforcement Learning Toolbox™ 软件训练这些网络。

有关详细信息,请参阅Reinforcement Learning Using Deep Neural Networks

主题