马克斯普朗克研究所开发引力波检测器强化学习系统
“MATLAB 和 Simulink 的一大优势是可以让我对不同的强化学习算法进行快速迭代。这大大减少了确定最终选择所需的时间。”
关键成果
- 使用 MATLAB 和 Simulink 开发的强化学习智能体在提高天体物理学对二元中子星的敏感度方面胜过人类
- 在重力波探测器上首次实现基于强化学习的光机械系统 MIMO 控制
- 在部署之前,使用 Simulink 对强化学习智能体进行训练并通过仿真进行验证

部署的强化学习智能体在提高对二元中子星的天体物理学敏感度方面胜过人类。(图片所有权:arXiv)
德国汉诺威的马克斯普朗克引力物理研究所的研究人员致力于研究物理学的各个领域,包括广义相对论、量子光学和天体物理学。该研究所正在进行的一个重要项目是使用激光干涉测量天文台,如德国的 GEO600 或美国的 LIGO,探测由大规模天体物理事件(如碰撞黑洞)引起的引力波。
激光干涉仪引力波观测台的工作原理是将激光束投影到相距数英里的镜面上,以测量由经过的引力波引起的微小时空波动。只有在路径长度上的所有其他非引力变化(如海洋波活动产生的局部地震扰动、农民运行机器等)都被主动或被动地抑制时才能探测到引力波,因此这些反射镜需要得到控制。天文台的数百面镜子的控制和校准之前都是人工完成的。工程师和科学家对系统进行研究,利用他们的知识和直觉来构造和调整控制滤波器。
马克斯普朗克引力物理研究所的科学家使用 MATLAB® 和 Simulink® 开发了一种强化学习系统,该系统可以自动调整和对齐一些关键的天文台镜面。他们使用 Deep Learning Toolbox™ 创建了一个结合卷积和长短期记忆的神经网络,通过分析放置在光机械中相机的视频来测量校准误差。神经网络的输出是强化学习环境的状态。使用 Simulink Design Optimization™ 和 Reinforcement Learning Toolbox™,他们能够根据经典控制理论的原理为强化学习系统自动生成奖励信号。
科学家根据他们使用 System Identification Toolbox™ 从物理系统中获得的测量结果在 Simulink 中搭建了一个仿真环境。他们使用这种具有 Reinforcement Learning Toolbox 的环境来测试不同算法并训练其强化学习智能体,而无需对设备进行物理改动。他们在 GEO600 上成功使用了强化学习方法。这是他们首次在引力波探测器上实现基于神经网络的校准感知和控制。