目标: 用HER训练pick-and-place。
逻辑: HER → replay buffer → DQN(这个我不太确定)。 cs285直到replay buffer → HER论文 → 得到env的想法(state/obs,reward可能要再设计一下,action)→ stable baseline 代码。
计划: - 明天白天都在玩,晚上学cs285。 - 周六搞定cs285 + HER paper。
发现自己之前居然写过一大堆DRL笔记,感动,非常感动。
焦虑了焦虑了(哭
语不惊人死不休
舍您其谁
线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容
目标:
用HER训练pick-and-place。
逻辑:
HER → replay buffer → DQN(这个我不太确定)。
cs285直到replay buffer → HER论文 → 得到env的想法(state/obs,reward可能要再设计一下,action)→ stable baseline 代码。
计划:
- 明天白天都在玩,晚上学cs285。
- 周六搞定cs285 + HER paper。