強化学習におけるrl​TrainingOp​tionsについての​質問

現在DQNを構築し、
他のソフトを環境として強化学習を実行しています。
環境側で1エピソード分の作業が終了した後、
次のエピソードが始まるまでに15秒ほど時間がかかるのですが、
その間にmatlab側では100エピソードほど進んでしまいます。
そこで、
rlTrainingOptionsなどを用いて1エピソード目の評価を行ったあとに15秒待機する、
といったような設定を行うことは可能でしょうか。

4 个评论

MATLAB, Simulinkと「他のソフト」を連携して動かす際に、どのようにして連携しているのでしょうか。その連携手法に、計算時間を同期させて動かすモードがあれば、それで問題無いように思えますが。
仰っている、時間で待機して同期させるやり方は、何かのタイミングで同期がずれる可能性があり、再現性が良くないと思います。
Y. M
Y. M 2020-12-3
编辑:Y. M 2020-12-3
ご指摘いただきありがとうございます。
時間で待機させる点に関しましては、
matlabと別ソフトのどちらが動くのかの判断を、お互いに出力し読み込ませているため問題はないかと思われます。
ただ、どうしても別ソフトが1エピソード終了し次のエピソードが始まるまでに
報酬0という結果が数エピソード分matlab側から返ってきてしまいます。
Y. M
Y. M 2020-12-3
初歩的な質問で大変申し訳無いのですが、
IsDoneによって各エピソードの終了判定がされている、という認識で間違いないでしょうか。
Y. M
Y. M 2020-12-4
すみません、自己解決しました。

请先登录,再进行评论。

回答(0 个)

标签

提问:

2020-12-3

评论:

2020-12-4

Community Treasure Hunt

Find the treasures in MATLAB Central and discover how the community can help you!

Start Hunting!