今天是戒断第二天-每日打卡-行恒

- 正在追寻dolce
- 7级
- 自律力99.33
- 希望顺利毕业的学生

#戒断# 今天是戒断第二天

今天的计划是：
- 67cn，8cp。
- cs285，lecture 6。

感觉老师对我的预估和期望都偏高。不想荒废。要努力的说。感觉和老师交流很好，老师很厉害很inspiring。要多交流。加油。

足够的精力投入+可观的贡献比。

话说某dsp课程也要做实验诶，希望不是很难。这个输入法好迷呀，感觉它忘记了很多我常敲的词。

今天要加油啊。还有就是要早休息。嗯，要早休息。课内的事情要好好整理一下，下一步要做什么。现在给课内分的精力更少了，所以要用的更精。嗯。

总之就这样了。正在追寻dolce的我啊，加油加油。

4
+9番茄
799只自习生围观
2021年11月4日 14:14打卡
2 年，6 月前有动静
引用
举报

正在追寻dolce
2 年，6 月前
2021年11月4日 18:03
卡主

只要是学完神奇回退N步和选择重传，我就把这一小节学完了，嗯。

正在追寻dolce
2 年，6 月前
2021年11月4日 18:25
卡主

看上周的周赛，发现好多人觉得最后一题偏难hh。现在打算切一个水题放松一下，然后把cn看完，然后看cs285 l6，最后整理一下课内的事情。好像混进大一自习教室了……还以为小教室不是大一自习教室呢。不过也好，这样就不担心打扰了。

正在追寻dolce
2 年，6 月前
2021年11月4日 20:54
卡主

刚刚出去跑步，现在可算把cn暂时看完了，接下来cs285吧~

正在追寻dolce
2 年，6 月前
2021年11月4日 22:33
卡主

大致总结一下，首先是actor-critic，policy gradient框架没变，但policy的好坏从monte carlo变成了fit一个value function。
value function就是对于policy P，这个state平均发展下去会是什么样子。怎么用它评价好坏呢，大概就是，本步reward + 下一个state的value function - 本state的value function，现在居然已经有点忘记怎么得到的了……嗷想起来了，本来是Q-V的，用下一个state+本步reward来近似Q大概？
接下来，我们要更新policy了，但是对一个新policy就训练一个value function工作量太大，所以在更新后，先拿以前的V凑合着用，等这一次跑完再去训练V…？已经在晕了。
后面还引入了一个γ，用来给明天的期望reward discount。后面有一个均衡，大意就是，我今天的state对明天的state还是蛮有预知意义的，但是对30年后不能精确预测（就是方差太大的问题，虽然预测是无偏的），所以前面n步采用Monte Carlo，后面就使用value function…？也不太记得了。
大概这样。现在的阶段还是进度为重，以后可能会重刷这一节。

1
4条 1页

#戒断# 今天是戒断第二天

作者的近日打卡

猜你喜欢

合作伙伴

导航

联系我们

© 行恒 2013