那个 OCBA 的话,感觉主要就是要看懂,到底在建模什么。
原始 OCBA 采样的是样本性能的分布,但是在 RL 里,采样的是 reward 还是 Q 或者其他东西呢?

谁能成为意见领袖?

语不惊人死不休

舍您其谁

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013