接下来打算,对着代码+文档,看stable-baseline对HER和DDPG的实现。
呜呜呜呜呜。
今天上午的计划是,写一些对module的看法,大致把代码搞出来。下午和晚上的计划,我会同步更新在这里的。
昨天的失策主要在于,下午状态垮掉去摸鱼,晚上一摸鱼就停不下来。(叹)
接下来打算,对着代码+文档,看stable-baseline对HER和DDPG的实现。
我终于有点明白了,TD3它是有两套DDQN式的target+predict网络(为了避免追移动靶),为了防止估计过高,又每次取两套网络里的最小,作为两套网络去拟合的数据……?
目前可能的要求:obs action space 继承自 gym 的一些 space (goalSpace,for HER)
真希望可以直接调用啊。
感觉可能把 kinematic 的部分,放到最基础的 setting 里更好?明天再说…
早上真是美好的时段啊,上午9点坐在电脑前,窗外阳光清朗+鸟叫,感觉一天时间很充裕,一切皆有可能。