#戒断# 今天是戒断第一天

昨天晚上摸鱼……

现在思路有点乱诶,整理一下思路。


首先,我要干的事情是,train agents for subtasks。
所以需要知道,subtasks分别是什么结构,怎么train agent,train到的agent怎么保存。
- subtasks有什么,分别是什么结构:不太清楚。现在甚至不太清楚action有什么。
- 怎么train agent:不太清楚,没调过很多次库。
- trained agent通过什么方式组合:不太清楚,可以问。


下一步:
- 首先把action搞清楚。看env是怎么simulate agent状态的。
- 看现在的reward是怎么算的。注意不要改任何代码。
- 然后去问subtask怎么划分。
- 同时看DRL的接口。
- 然后,应该就开始魔改环境了。


对于魔改环境,我现在的想法:
- 为每一个subtask定制reward函数。
- 很混乱。希望在定制的reward函数下,每次生成的map都不一样,agent在不同的map中,通过observation行走自如。怎么达到?

  • 2
  • +9番茄
  • 151只自习生围观
  • 2021年11月16日 18:15打卡
  • 2 年,6 月前有动静
  • 引用
  • 举报
最近犒劳过的人
    • FQ
    • ♂ 74
    • 自律力18.64
    • 太阳系内
    • 医学生

现在啊,打算听歌+糊di作业,放松一下。
对于cp ch4的作业,我拿到了一份靠谱的答案,不会很困难了。

下一步:
更清晰地考察基类的初始化,定义子类的初始化方法。
reset函数或许要重写。是的,如果每reset一次,都可以更新地图,问题就迎刃而解了。

作者的近日打卡

猜你喜欢

今天是戒断第一天喽… - 话不多说了。现在还处在整理三观的阶段吧,大概。 , , 只要远离无意义电子娱乐
今天还是戒断第一天 - 如题。 , , 给自己立了一个flag,周末两天大致搞定isaac gym怎么
今天是戒断第一天 - 昨天晚上状态不太好,跟睡眠太少有关系,摸鱼了。然后今天就是组会的时候,就很危。
今天是戒断第一天 - 昨天晚上去刷b站了,本着对自己忠诚的态度,今天天数归零。 , , ---- ,
今天是戒断第一天 - 昨天忘打卡了。晚上摸鱼了,效率不高。怀疑跟饮食有关,今后还是得节制饮食。 ,
今天是戒断第三天 - 今天大概会以工作为主。上次已经搞了一个camera,但是arm动不起来。 ,
今天是戒断第一天 - 因为昨天晚上摸鱼了。加油加油,今天继续戒断。 , , 现在感觉心里隐约的慌张,
今天是戒断第一天 - 昨天又摸鱼了。 , , 现在遇到迷惑的事情:一试图用 gpu 去 fill 我
今天是戒断第一天 - 又第一天了又第一天了……经典第一天。(以下的话有些意识流 / 语无伦次) ,
今天是戒断第一天 - 如题。 , 目前模型train不出来,打算先假装有模型、把剩下的代码写好。然后再

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013