下一步:
更清晰地考察基类的初始化,定义子类的初始化方法。
reset函数或许要重写。是的,如果每reset一次,都可以更新地图,问题就迎刃而解了。
昨天晚上摸鱼……
现在思路有点乱诶,整理一下思路。
首先,我要干的事情是,train agents for subtasks。
所以需要知道,subtasks分别是什么结构,怎么train agent,train到的agent怎么保存。
- subtasks有什么,分别是什么结构:不太清楚。现在甚至不太清楚action有什么。
- 怎么train agent:不太清楚,没调过很多次库。
- trained agent通过什么方式组合:不太清楚,可以问。
下一步:
- 首先把action搞清楚。看env是怎么simulate agent状态的。
- 看现在的reward是怎么算的。注意不要改任何代码。
- 然后去问subtask怎么划分。
- 同时看DRL的接口。
- 然后,应该就开始魔改环境了。
对于魔改环境,我现在的想法:
- 为每一个subtask定制reward函数。
- 很混乱。希望在定制的reward函数下,每次生成的map都不一样,agent在不同的map中,通过observation行走自如。怎么达到?
现在啊,打算听歌+糊di作业,放松一下。
对于cp ch4的作业,我拿到了一份靠谱的答案,不会很困难了。