正在追寻dolce
1 月，3 周前
2024年3月20日 11:35
卡主

那个 OCBA 的话，感觉主要就是要看懂，到底在建模什么。
原始 OCBA 采样的是样本性能的分布，但是在 RL 里，采样的是 reward 还是 Q 或者其他东西呢？

1
1条 1页

谁能成为意见领袖？

语不惊人死不休

舍您其谁

合作伙伴

京ICP备11011403号

导航

联系我们

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

© 行恒 2013