今天是戒断第一天-每日打卡-行恒

- 正在追寻dolce
- 8级
- 自律力98.49
- 希望顺利毕业的学生

#戒断# 今天是戒断第一天

昨天晚上摸鱼……

现在思路有点乱诶，整理一下思路。

首先，我要干的事情是，train agents for subtasks。
所以需要知道，subtasks分别是什么结构，怎么train agent，train到的agent怎么保存。
- subtasks有什么，分别是什么结构：不太清楚。现在甚至不太清楚action有什么。
- 怎么train agent：不太清楚，没调过很多次库。
- trained agent通过什么方式组合：不太清楚，可以问。

下一步：
- 首先把action搞清楚。看env是怎么simulate agent状态的。
- 看现在的reward是怎么算的。注意不要改任何代码。
- 然后去问subtask怎么划分。
- 同时看DRL的接口。
- 然后，应该就开始魔改环境了。

对于魔改环境，我现在的想法：
- 为每一个subtask定制reward函数。
- 很混乱。希望在定制的reward函数下，每次生成的map都不一样，agent在不同的map中，通过observation行走自如。怎么达到？

2
+9番茄
177只自习生围观
2021年11月16日 18:15打卡
2 年，10 月前有动静
引用
举报

最近犒劳过的人

- FQ
- ♂ 74
- 自律力17.67
- 太阳系内
- 医学生

正在追寻dolce
2 年，10 月前
2021年11月16日 18:17
卡主

现在啊，打算听歌+糊di作业，放松一下。
对于cp ch4的作业，我拿到了一份靠谱的答案，不会很困难了。

正在追寻dolce
2 年，10 月前
2021年11月16日 21:35
卡主

下一步：
更清晰地考察基类的初始化，定义子类的初始化方法。
reset函数或许要重写。是的，如果每reset一次，都可以更新地图，问题就迎刃而解了。

1
2条 1页

#戒断# 今天是戒断第一天

作者的近日打卡

猜你喜欢

合作伙伴

导航

联系我们

© 行恒 2013