早上真是美好的时段啊,上午9点坐在电脑前,窗外阳光清朗+鸟叫,感觉一天时间很充裕,一切皆有可能。

接下来打算,对着代码+文档,看stable-baseline对HER和DDPG的实现。

我终于有点明白了,TD3它是有两套DDQN式的target+predict网络(为了避免追移动靶),为了防止估计过高,又每次取两套网络里的最小,作为两套网络去拟合的数据……?

目前可能的要求:obs action space 继承自 gym 的一些 space (goalSpace,for HER)
真希望可以直接调用啊。

感觉可能把 kinematic 的部分,放到最基础的 setting 里更好?明天再说…

谁能成为意见领袖?

语不惊人死不休

舍您其谁

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013