导航
自习室
每日打卡
每日打卡
我的打卡
我的评论
我关注的人
我的主题
全部主题
每日作业
每日作业
有偿辅导
寻求辅导
创建作业
制定计划
我的计划日历
我的库存表
状元游街
状元游街
找学友
我的私信
我的粉丝
我的关注
一对一编程
App下载
登录
注册
每日打卡
正在追寻dolce的打卡
#
戒断
#
喜报,imitation learning 能跑通
笑死,看 curve 是把 std 看成 performance 了,以为一点都没学到,给我吓死了。
1
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
1
分享
引用
#
戒断
#
再整个 newbee policy 叭
存 100 200 300 400 的 policy(?)按需取用,感觉可以。 然后就可生成 preference dataset,可以 feed data 让我的模型去跑。嗯!
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
1
分享
引用
#
戒断
#
Act as an academic writing expert.
Act as an academic writing expert. Please improve the writing of the following paragraph. You don't
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
0
分享
引用
#
戒断
#
今晚在看 CDS 文章
Conservative Data Sharing for Multi-Task Offline Reinforcement Learning,好像是师兄推荐的论文,正好有时间就读读。
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
1
分享
引用
《RL 致命三角》
> 《强化学习导论》有云:RL 致命三角包含 bootstrap(根据当前估计进一步估计)、off-policy(探索和 exploit 分开)、approximation(泛化,放弃Q表),三者同时
3
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
1
分享
引用
#
戒断
#
今天糊糊大饼 1 的代码,
然后看看如何做点正经工作(…
1
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
2
分享
引用
#
戒断
#
糊一下论文 pipeline
打算看看 offline 2 online 的工作,能否为 fine-tune 步骤带来灵感… 目前有一个 base policy,有训 base policy 得到的数据,想进行 online
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
4
分享
引用
#
戒断
#
午睡随感
有时候心里盘旋的想法,可能并不由我们的自主意识产生,而只是没休息好、状态不好、心情不好之类的衍生物。 这也是没办法的事;唯一能做的,就是尽可能管理自己的状态,然后别把那些想法往心里去…… 可能睡
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
1
分享
引用
#
戒断
#
关于 pre 的一点思考
感觉交互感是非常重要的。不然,即使读了很好的稿子,也没有人听。 下次可以 看一句稿子,交互转述一句。要假装是自己想的,认真指着 ppt 看着观众讲出来。
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
3
分享
引用
#
戒断
#
2024 快乐!
今天是甲子月甲子日噢! 请拜托加油呀!
正在追寻dolce
7级
自律力99.24
希望顺利毕业的学生
犒劳
3
分享
引用
1
2
3
4
5
6
最后一页
590条 59页
合作伙伴
京ICP备11011403号
导航
每日打卡
每日作业
状元游街
日历日程
应用
线上自习室
有偿辅导
全球时间转换
用户协议
PyChegg
App下载
联系我们
求助区
公告中心
帮助
线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容
© 行恒 2013
自习中
App
灯控
求助
顶部