正在追寻dolce
2 年，4 月前
2022年2月21日 11:00
卡主

看到了一个好的reward shaping 文章，abstract超级吸引人。

正在追寻dolce
2 年，4 月前
2022年2月21日 12:23
卡主

所以说我以前sac环境写错了，希望这次可以work。
是 gym.GoalEnv 的环境，compute_reward() 输入是一大组数据，要 axis=1。这样说来，pick-and-place也有问题了。
btw，那个reward shaping 文章，我怀疑这不是 MDP，然后学术品味（昨天晚上刚刚听说这个词），hmm，不是很高的样子，感觉像我打数模出的那种馊主意。

正在追寻dolce
2 年，4 月前
2022年2月21日 12:24
卡主

sac它work了。together with HER，它work了。ToT

正在追寻dolce
2 年，4 月前
2022年2月21日 15:13
卡主

sac并不在pick上work。令人难过。不过如果冷静面对找解决方案，就可以找到解决方案的。

正在追寻dolce
2 年，4 月前
2022年2月21日 19:05
卡主

有点自闭，主要是又冷又渴。

正在追寻dolce
2 年，4 月前
2022年2月21日 22:15
卡主

你就不能把手伸向obj，然后把它抓起来，然后拿着它移到指定位置吗？？？

正在追寻dolce
2 年，4 月前
2022年2月22日 08:49
卡主

成功了？成功了……？居然成功了？？

1
7条 1页

谁能成为意见领袖？

语不惊人死不休

舍您其谁

合作伙伴

京ICP备11011403号

联系我们

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

谁能成为意见领袖？

合作伙伴

导航

联系我们

© 行恒 2013