#戒断# 今天是戒断第一天

再靠近一点,看清差距。差在哪里,如何弥补;制定计划,推进执行。

精力不要耗完,过满则亏。聚焦,减少路径上的耗散。嗯,加油加油。

  • 4
  • +6番茄
  • 299只自习生围观
  • 2021年11月20日 09:29打卡
  • 2 年,5 月前有动静
  • 引用
  • 举报

10:20
学长新写了 3 个 subtask,主要体现在 interact 会返回 3 个 subtask 的 reward,就是可以从 interact 的返回值上发现自己完成了哪些 subtask。
想到一个hacking,我一直扔土豆+拿土豆,岂不是两步就捡起来一次土豆,然后reward upup?hhhh
接下来要明确我的需求,我到底要做什么。是根据给定的subtask规划动作。比如导航。并且为不撞到别人,还要时时刻刻看地图。
我刚刚产生了一个想法,把整个程序重构,不采用继承的方式,把现在的env作为一个成员变量。嗯。

15:29
梳理思路。
一个 agent 得知自己要做 high-level 的动作,比如说 pick tomato。agent 首先声明一个我的 subtask agent,并且做一些初始化(如意识到自己在哪里,tomato 又在哪里)。然后,while(动作没有结束) 来使用 subtask agent,输入目前的地图,输出下一步的动作。
我需要知道的事情:
agent 在哪里,tomato 在哪里,哪些是障碍物,什么时候抓到了(给出动作结束的信号)。
我该如何训练:
给出随机地图,随机 agent 位置,随机 tomato 位置。reward 函数:到达 destiny 则1,否则0。
模型的分离:
一个模型用来导航,再封装一层,给出agent位置、destiny位置、每时每刻的地图、调用模型来导航。

我发现一个事情啊,就是while循环得到下一步怎么走,调用step函数,这个过程是封闭的,就很爆炸。有点两耳不闻窗外事的感觉,容易撞到别的agent。

学长的 map_generation:空格是 floor,- 是 grid

作者的近日打卡

猜你喜欢

今天是戒断第一天喽… - 话不多说了。现在还处在整理三观的阶段吧,大概。 , , 只要远离无意义电子娱乐
今天是戒断第三天啊 - 只要远离无意义电子娱乐,人生就有希望。 , , 不要沾沾自喜洋洋得意,欺骗蒙蔽
今天是又是戒断第一天 - > 怎么说呢,贪图一时的非健康巅峰体验,不仅接下来要面对痛苦,而且把自制力、冷静
今天是戒断第一天 - 其实昨天,emm,相比起前几天来说,做的并不算很离谱。但我意识到一个事情,就是1
今天是戒断第一天 - 昨天状态比前几天好,但还是有沉迷b站的成分。现在时间不太够了,如果昨天能把摸鱼的
今天是戒断第一天 - 又是第一天了耶……因为昨天又沉迷虚拟世界很长时间。 , , 只要远离无意义电子
今天还是戒断第一天 - 昨天晚上沉迷虚拟世界了。然后慨叹我太菜了。今天上午上cp,跟不上老师同学的思路,
今天是戒断第一天 - 昨天忘了打卡了,嘶。昨天晚上摸鱼了。今天要加油。 , , 今天早上被一个老师回
啊那个,今天是戒断第一天 - 今天好像没打卡……上午想着要打卡来着,但是忘记了。 , , 只要远离无意义电子
今天是戒断第二天 - 再靠近一点,看清差距。差在哪里,如何弥补;制定计划,推进执行。 , 不要耗尽所有

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013