只要是学完神奇 回退N步 和 选择重传,我就把这一小节学完了,嗯。

看上周的周赛,发现好多人觉得最后一题偏难hh。现在打算切一个水题放松一下,然后把cn看完,然后看cs285 l6,最后整理一下课内的事情。好像混进大一自习教室了……还以为小教室不是大一自习教室呢。不过也好,这样就不担心打扰了。

刚刚出去跑步,现在可算把cn暂时看完了,接下来cs285吧~

大致总结一下,首先是actor-critic,policy gradient框架没变,但policy的好坏从monte carlo变成了fit一个value function。
value function就是对于policy P,这个state平均发展下去会是什么样子。怎么用它评价好坏呢,大概就是,本步reward + 下一个state的value function - 本state的value function,现在居然已经有点忘记怎么得到的了……嗷想起来了,本来是Q-V的,用下一个state+本步reward来近似Q大概?
接下来,我们要更新policy了,但是对一个新policy就训练一个value function工作量太大,所以在更新后,先拿以前的V凑合着用,等这一次跑完再去训练V…?已经在晕了。
后面还引入了一个γ,用来给明天的期望reward discount。后面有一个均衡,大意就是,我今天的state对明天的state还是蛮有预知意义的,但是对30年后不能精确预测(就是方差太大的问题,虽然预测是无偏的),所以前面n步采用Monte Carlo,后面就使用value function…?也不太记得了。
大概这样。现在的阶段还是进度为重,以后可能会重刷这一节。

谁能成为意见领袖?

语不惊人死不休

舍您其谁

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013