如果每步的 reward 都是 -40 多,value 也应该至少 -40 多吧,不该仍然是 -1 多。
调高 lr 试试。
今天开始困了,可能因为打金刚功起了作用。调完 lr 后列个 timeline,今天中午要回宿舍两趟 换衣服。希望中午早点结束。下午还要跟师兄 meeting,不过问题不大。
最令人担忧的就是,我是否真的走在我的路线上,是否真的有效地在行进。这是我最担忧的。
加油加油。
action 怎么,又,去,15 了!
怀疑 reward 写反了…
(存档) 隐瞒师兄的点:1. GNN 最大的优势在于,可能能从小机房迁移到大机房,不多进行 6sigma 仿真。2. GNN 有成熟的掉包。
线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容
action 怎么,又,去,15 了!