知友评论第1页-行恒

正在追寻dolce
2 年，7 月前
2021年11月4日 18:03
卡主

只要是学完神奇回退N步和选择重传，我就把这一小节学完了，嗯。

正在追寻dolce
2 年，7 月前
2021年11月4日 18:25
卡主

看上周的周赛，发现好多人觉得最后一题偏难hh。现在打算切一个水题放松一下，然后把cn看完，然后看cs285 l6，最后整理一下课内的事情。好像混进大一自习教室了……还以为小教室不是大一自习教室呢。不过也好，这样就不担心打扰了。

正在追寻dolce
2 年，7 月前
2021年11月4日 20:54
卡主

刚刚出去跑步，现在可算把cn暂时看完了，接下来cs285吧~

正在追寻dolce
2 年，7 月前
2021年11月4日 22:33
卡主

大致总结一下，首先是actor-critic，policy gradient框架没变，但policy的好坏从monte carlo变成了fit一个value function。
value function就是对于policy P，这个state平均发展下去会是什么样子。怎么用它评价好坏呢，大概就是，本步reward + 下一个state的value function - 本state的value function，现在居然已经有点忘记怎么得到的了……嗷想起来了，本来是Q-V的，用下一个state+本步reward来近似Q大概？
接下来，我们要更新policy了，但是对一个新policy就训练一个value function工作量太大，所以在更新后，先拿以前的V凑合着用，等这一次跑完再去训练V…？已经在晕了。
后面还引入了一个γ，用来给明天的期望reward discount。后面有一个均衡，大意就是，我今天的state对明天的state还是蛮有预知意义的，但是对30年后不能精确预测（就是方差太大的问题，虽然预测是无偏的），所以前面n步采用Monte Carlo，后面就使用value function…？也不太记得了。
大概这样。现在的阶段还是进度为重，以后可能会重刷这一节。

谁能成为意见领袖？

合作伙伴

导航

联系我们

© 行恒 2013