目标:
用HER训练pick-and-place。

逻辑:
HER → replay buffer → DQN(这个我不太确定)。
cs285直到replay buffer → HER论文 → 得到env的想法(state/obs,reward可能要再设计一下,action)→ stable baseline 代码。

计划:
- 明天白天都在玩,晚上学cs285。
- 周六搞定cs285 + HER paper。

发现自己之前居然写过一大堆DRL笔记,感动,非常感动。

焦虑了焦虑了(哭

谁能成为意见领袖?

语不惊人死不休

舍您其谁

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013