正在追寻dolce
2 年，3 月前
2022年1月28日 08:16
卡主

目标：
用HER训练pick-and-place。

逻辑：
HER → replay buffer → DQN（这个我不太确定）。
cs285直到replay buffer → HER论文 → 得到env的想法（state/obs，reward可能要再设计一下，action）→ stable baseline 代码。

计划：
- 明天白天都在玩，晚上学cs285。
- 周六搞定cs285 + HER paper。

正在追寻dolce
2 年，3 月前
2022年1月28日 08:25
卡主

发现自己之前居然写过一大堆DRL笔记，感动，非常感动。

正在追寻dolce
2 年，3 月前
2022年1月28日 10:00
卡主

焦虑了焦虑了（哭

1
3条 1页

谁能成为意见领袖？

语不惊人死不休

舍您其谁

合作伙伴

京ICP备11011403号

导航

联系我们

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

© 行恒 2013