《RL 致命三角》-每日打卡-行恒

- 正在追寻dolce
- 7级
- 自律力99.30
- 希望顺利毕业的学生

《RL 致命三角》

《强化学习导论》有云：RL 致命三角包含 bootstrap（根据当前估计进一步估计）、off-policy（探索和 exploit 分开）、approximation（泛化，放弃Q表），三者同时出现会不稳定。这一现象主要是因为，在强化学习中，bootstrap 带来了未来奖励信号的不确定性，approximation 本身就会带来近似误差（行为和 reward 因果关系的错误估计），off-policy 自身有数不平衡采样偏差。缓解致命三角问题的方法包括使用经验回放（Experience Replay）让样本更加独立同分布减少相关性，使用目标网络（Target Network）来稳定估计值函数，以及使用合适的approximation（如深度神经网络）等。

真是有趣的好说法ww

3
+9番茄
20只自习生围观
2024年2月26日 20:43打卡
1 月，4 周前有动静
引用
举报

分享

最近犒劳过的人

- 葫芦葫芦
- 6级
- 自律力82.45
- 北京
- 药学生

葫芦葫芦
2 月前
2024年2月27日 09:00

哥们是做机器学习方向的吗?

正在追寻dolce
2 月前
2024年2月28日 10:04
卡主

葫芦葫芦

6级

自律力82.45

北京

药学生

2 月前

哥们是做机器学习方向的吗?

嗯嗯，是噢

葫芦葫芦
1 月，4 周前
2024年2月29日 09:18

正在追寻dolce

7级

自律力99.30

希望顺利毕业的学生

2 月前

卡主

嗯嗯，是噢

好嘞好嘞!有机会一起合作哈哈哈哈

1
3条 1页

作者的近日打卡

今天糊糊大饼 1 的代码， - 然后看看如何做点正经工作（…...
2 月前发布

合作伙伴

京ICP备11011403号

导航

联系我们

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

© 行恒 2013