存 100 200 300 400 的 policy(?)按需取用,感觉可以。
然后就可生成 preference dataset,可以 feed data 让我的模型去跑。嗯!
线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容