#戒断# 喜报,imitation learning 能跑通

笑死,看 curve 是把 std 看成 performance 了,以为一点都没学到,给我吓死了。

  • 1
  • +6番茄
  • 10只自习生围观
  • 2024年3月20日 10:43打卡
  • 1 月,1 周前有动静
  • 引用
  • 举报
最近犒劳过的人

那个 OCBA 的话,感觉主要就是要看懂,到底在建模什么。
原始 OCBA 采样的是样本性能的分布,但是在 RL 里,采样的是 reward 还是 Q 或者其他东西呢?

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013