看上周的周赛,发现好多人觉得最后一题偏难hh。现在打算切一个水题放松一下,然后把cn看完,然后看cs285 l6,最后整理一下课内的事情。好像混进大一自习教室了……还以为小教室不是大一自习教室呢。不过也好,这样就不担心打扰了。
今天的计划是:
- 67cn,8cp。
- cs285,lecture 6。
感觉老师对我的预估和期望都偏高。不想荒废。要努力的说。感觉和老师交流很好,老师很厉害很inspiring。要多交流。加油。
足够的精力投入+可观的贡献比。
话说某dsp课程也要做实验诶,希望不是很难。这个输入法好迷呀,感觉它忘记了很多我常敲的词。
今天要加油啊。还有就是要早休息。嗯,要早休息。课内的事情要好好整理一下,下一步要做什么。现在给课内分的精力更少了,所以要用的更精。嗯。
总之就这样了。正在追寻dolce的我啊,加油加油。
看上周的周赛,发现好多人觉得最后一题偏难hh。现在打算切一个水题放松一下,然后把cn看完,然后看cs285 l6,最后整理一下课内的事情。好像混进大一自习教室了……还以为小教室不是大一自习教室呢。不过也好,这样就不担心打扰了。
刚刚出去跑步,现在可算把cn暂时看完了,接下来cs285吧~
大致总结一下,首先是actor-critic,policy gradient框架没变,但policy的好坏从monte carlo变成了fit一个value function。
value function就是对于policy P,这个state平均发展下去会是什么样子。怎么用它评价好坏呢,大概就是,本步reward + 下一个state的value function - 本state的value function,现在居然已经有点忘记怎么得到的了……嗷想起来了,本来是Q-V的,用下一个state+本步reward来近似Q大概?
接下来,我们要更新policy了,但是对一个新policy就训练一个value function工作量太大,所以在更新后,先拿以前的V凑合着用,等这一次跑完再去训练V…?已经在晕了。
后面还引入了一个γ,用来给明天的期望reward discount。后面有一个均衡,大意就是,我今天的state对明天的state还是蛮有预知意义的,但是对30年后不能精确预测(就是方差太大的问题,虽然预测是无偏的),所以前面n步采用Monte Carlo,后面就使用value function…?也不太记得了。
大概这样。现在的阶段还是进度为重,以后可能会重刷这一节。
只要是学完神奇 回退N步 和 选择重传,我就把这一小节学完了,嗯。