#戒断# 今天是戒断第二天

今天的计划是:
- 67cn,8cp。
- cs285,lecture 6。

感觉老师对我的预估和期望都偏高。不想荒废。要努力的说。感觉和老师交流很好,老师很厉害很inspiring。要多交流。加油。

足够的精力投入+可观的贡献比。

话说某dsp课程也要做实验诶,希望不是很难。这个输入法好迷呀,感觉它忘记了很多我常敲的词。

今天要加油啊。还有就是要早休息。嗯,要早休息。课内的事情要好好整理一下,下一步要做什么。现在给课内分的精力更少了,所以要用的更精。嗯。

总之就这样了。正在追寻dolce的我啊,加油加油。

  • 4
  • +9番茄
  • 799只自习生围观
  • 2021年11月4日 14:14打卡
  • 2 年,6 月前有动静
  • 引用
  • 举报

只要是学完神奇 回退N步 和 选择重传,我就把这一小节学完了,嗯。

看上周的周赛,发现好多人觉得最后一题偏难hh。现在打算切一个水题放松一下,然后把cn看完,然后看cs285 l6,最后整理一下课内的事情。好像混进大一自习教室了……还以为小教室不是大一自习教室呢。不过也好,这样就不担心打扰了。

刚刚出去跑步,现在可算把cn暂时看完了,接下来cs285吧~

大致总结一下,首先是actor-critic,policy gradient框架没变,但policy的好坏从monte carlo变成了fit一个value function。
value function就是对于policy P,这个state平均发展下去会是什么样子。怎么用它评价好坏呢,大概就是,本步reward + 下一个state的value function - 本state的value function,现在居然已经有点忘记怎么得到的了……嗷想起来了,本来是Q-V的,用下一个state+本步reward来近似Q大概?
接下来,我们要更新policy了,但是对一个新policy就训练一个value function工作量太大,所以在更新后,先拿以前的V凑合着用,等这一次跑完再去训练V…?已经在晕了。
后面还引入了一个γ,用来给明天的期望reward discount。后面有一个均衡,大意就是,我今天的state对明天的state还是蛮有预知意义的,但是对30年后不能精确预测(就是方差太大的问题,虽然预测是无偏的),所以前面n步采用Monte Carlo,后面就使用value function…?也不太记得了。
大概这样。现在的阶段还是进度为重,以后可能会重刷这一节。

作者的近日打卡

猜你喜欢

今天是戒断第二天 - 吐槽,图书馆的网就是辣鸡。真不靠谱。下午考虑迁徙一波,去楼上看看,或者去自习教室
今天是戒断第三天 - 已经返校啦,明天就要开始上课。专业课内容都忘光了诶。 , , 大三上的学习生活
今天是戒断第二天 - 加油加油。粘一句话: , , > 不必要不刷手机,不然下午脑子就不是自己的。
今天是戒断第三天…吧 - 应该没数错吧。现在我的目标已经很明确了,不要被课内牵绊住步伐,不要被别的无所谓的
今天是戒断第二天 - (但明天是戒断第一天了,因为今天下午又又又摸鱼了…… , , 后天要打一个数学
今天是戒断第二天 - 上午4节课下午3节,34的cp要好好利用。中午要好好睡觉的说。 , , 在课程
今天是戒断第一天 - 昨天忘打卡了。晚上摸鱼了,效率不高。怀疑跟饮食有关,今后还是得节制饮食。 ,
今天是戒断第二天 - 嗯。现在开始工作。要干的事情很多诶,边学边工作,“会累一些”。以后要抓住时间全力
今天是戒断第二天 - 我迫不及待要参与项目了,真是激动人心啊。嗯。 , , (以上是心法,是我本来应
今天是戒断第二天 - 现在才开始进入学习状态。看了一个有点玄学但内容貌似不错的公众号。 , , 今天

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013