笑死,看 curve 是把 std 看成 performance 了,以为一点都没学到,给我吓死了。
那个 OCBA 的话,感觉主要就是要看懂,到底在建模什么。 原始 OCBA 采样的是样本性能的分布,但是在 RL 里,采样的是 reward 还是 Q 或者其他东西呢?
线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容
那个 OCBA 的话,感觉主要就是要看懂,到底在建模什么。
原始 OCBA 采样的是样本性能的分布,但是在 RL 里,采样的是 reward 还是 Q 或者其他东西呢?