看到了一个好的reward shaping 文章,abstract超级吸引人。

所以说我以前sac环境写错了,希望这次可以work。
是 gym.GoalEnv 的环境,compute_reward() 输入是一大组数据,要 axis=1。这样说来,pick-and-place也有问题了。
btw,那个reward shaping 文章,我怀疑这不是 MDP,然后学术品味(昨天晚上刚刚听说这个词),hmm,不是很高的样子,感觉像我打数模出的那种馊主意。

sac它work了。together with HER,它work了。ToT

sac并不在pick上work。令人难过。不过如果冷静面对找解决方案,就可以找到解决方案的。

有点自闭,主要是又冷又渴。

你就不能把手伸向obj,然后把它抓起来,然后拿着它移到指定位置吗???

成功了?成功了……?居然成功了??

谁能成为意见领袖?

语不惊人死不休

舍您其谁

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013