存在 replay buffer 里面的是 buffer action,因此必须搞定 action 和 buffer action 之间的关系。
然后就可以 hack action、hack buffer action,fake 一个 episode 了。
存在 replay buffer 里面的是 buffer action,因此必须搞定 action 和 buffer action 之间的关系。
然后就可以 hack action、hack buffer action,fake 一个 episode 了。
两个sad的事:1. 寒假学校现在还没组队成功;2. 刚刚发现 reward function 搞反了(?)
还差一个collect rollout的修改
语不惊人死不休
舍您其谁
中午再登小号回一下隔壁专业的同学,他不知道他加的是我的小号… 现在专心调程序。