接下来打算,对着代码+文档,看stable-baseline对HER和DDPG的实现。
接下来打算,对着代码+文档,看stable-baseline对HER和DDPG的实现。
我终于有点明白了,TD3它是有两套DDQN式的target+predict网络(为了避免追移动靶),为了防止估计过高,又每次取两套网络里的最小,作为两套网络去拟合的数据……?
目前可能的要求:obs action space 继承自 gym 的一些 space (goalSpace,for HER)
真希望可以直接调用啊。
感觉可能把 kinematic 的部分,放到最基础的 setting 里更好?明天再说…
语不惊人死不休
舍您其谁
早上真是美好的时段啊,上午9点坐在电脑前,窗外阳光清朗+鸟叫,感觉一天时间很充裕,一切皆有可能。