正在追寻dolce
2 年，7 月前
2022年2月5日 09:10
卡主

早上真是美好的时段啊，上午9点坐在电脑前，窗外阳光清朗+鸟叫，感觉一天时间很充裕，一切皆有可能。

正在追寻dolce
2 年，7 月前
2022年2月5日 10:00
卡主

接下来打算，对着代码+文档，看stable-baseline对HER和DDPG的实现。

正在追寻dolce
2 年，7 月前
2022年2月5日 12:45
卡主

我终于有点明白了，TD3它是有两套DDQN式的target+predict网络（为了避免追移动靶），为了防止估计过高，又每次取两套网络里的最小，作为两套网络去拟合的数据……？

正在追寻dolce
2 年，7 月前
2022年2月5日 22:51
卡主

目前可能的要求：obs action space 继承自 gym 的一些 space （goalSpace，for HER）
真希望可以直接调用啊。

正在追寻dolce
2 年，7 月前
2022年2月5日 23:29
卡主

感觉可能把 kinematic 的部分，放到最基础的 setting 里更好？明天再说…

1
5条 1页

谁能成为意见领袖？

语不惊人死不休

舍您其谁

合作伙伴

京ICP备11011403号

导航

联系我们

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

© 行恒 2013