#戒断# 喜报,imitation learning 能跑通

笑死,看 curve 是把 std 看成 performance 了,以为一点都没学到,给我吓死了。 1

#戒断# 再整个 newbee policy 叭

存 100 200 300 400 的 policy(?)按需取用,感觉可以。 然后就可生成 preference dataset,可以 feed data 让我的模型去跑。嗯!

#戒断# Act as an academic writing expert.

Act as an academic writing expert. Please improve the writing of the following paragraph. You don't

#戒断# 今晚在看 CDS 文章

Conservative Data Sharing for Multi-Task Offline Reinforcement Learning,好像是师兄推荐的论文,正好有时间就读读。

《RL 致命三角》

> 《强化学习导论》有云:RL 致命三角包含 bootstrap(根据当前估计进一步估计)、off-policy(探索和 exploit 分开)、approximation(泛化,放弃Q表),三者同时 3

#戒断# 今天糊糊大饼 1 的代码,

然后看看如何做点正经工作(… 1

#戒断# 糊一下论文 pipeline

打算看看 offline 2 online 的工作,能否为 fine-tune 步骤带来灵感… 目前有一个 base policy,有训 base policy 得到的数据,想进行 online

#戒断# 午睡随感

有时候心里盘旋的想法,可能并不由我们的自主意识产生,而只是没休息好、状态不好、心情不好之类的衍生物。 这也是没办法的事;唯一能做的,就是尽可能管理自己的状态,然后别把那些想法往心里去…… 可能睡

#戒断# 关于 pre 的一点思考

感觉交互感是非常重要的。不然,即使读了很好的稿子,也没有人听。 下次可以 看一句稿子,交互转述一句。要假装是自己想的,认真指着 ppt 看着观众讲出来。

#戒断# 2024 快乐!

今天是甲子月甲子日噢! 请拜托加油呀!

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013