有点累…… 有点心累…
有点累…… 有点心累…
还是train不出来吗,呜呜呜呜呜呜呜呜呜
有点忧郁,主要是心累… 打算不听歌了,安装完mindspore就睡觉…
拜托了,拜托仅仅是超参的问题吧,拜托了,好起来吧
怀疑自己的epsilon太小,是不是限制的过于严苛了
考虑把learning rate逐渐变小,不过adam是不是已经有相关的trick了
my vegetable has explored ToT
现在我要首先确保,我的算法是正确的,为此我打算削减 obs space,只留下必要的信息。嗯。
停了停了,是超参的问题,maybe是超参的问题
语不惊人死不休
舍您其谁
是打算试试 shaped reward 的。