存在 replay buffer 里面的是 buffer action,因此必须搞定 action 和 buffer action 之间的关系。
然后就可以 hack action、hack buffer action,fake 一个 episode 了。
明天就要开组会了哎,今天有几个小想法,要写一下train一下看看结果。考虑明天跑到图书馆3楼4楼 楼梯间那个小桌子那里开组会。
昨天大概12点半睡的觉,今天状态并不好的说。但…事在人为,只要不陷入到摸鱼状态,状态就已经好于寒假的average了。
今天是希望取得进展的第四天。加油加油。
存在 replay buffer 里面的是 buffer action,因此必须搞定 action 和 buffer action 之间的关系。
然后就可以 hack action、hack buffer action,fake 一个 episode 了。
两个sad的事:1. 寒假学校现在还没组队成功;2. 刚刚发现 reward function 搞反了(?)
还差一个collect rollout的修改
中午再登小号回一下隔壁专业的同学,他不知道他加的是我的小号… 现在专心调程序。