是打算试试 shaped reward 的。

有点累…… 有点心累…

还是train不出来吗,呜呜呜呜呜呜呜呜呜

有点忧郁,主要是心累… 打算不听歌了,安装完mindspore就睡觉…

拜托了,拜托仅仅是超参的问题吧,拜托了,好起来吧

怀疑自己的epsilon太小,是不是限制的过于严苛了

考虑把learning rate逐渐变小,不过adam是不是已经有相关的trick了

my vegetable has explored ToT

现在我要首先确保,我的算法是正确的,为此我打算削减 obs space,只留下必要的信息。嗯。

停了停了,是超参的问题,maybe是超参的问题

谁能成为意见领袖?

语不惊人死不休

舍您其谁

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013