#戒断# 感觉 PPO 是在被训的,但是 value 收敛太慢了

如果每步的 reward 都是 -40 多,value 也应该至少 -40 多吧,不该仍然是 -1 多。

调高 lr 试试。

今天开始困了,可能因为打金刚功起了作用。调完 lr 后列个 timeline,今天中午要回宿舍两趟 换衣服。希望中午早点结束。下午还要跟师兄 meeting,不过问题不大。

最令人担忧的就是,我是否真的走在我的路线上,是否真的有效地在行进。这是我最担忧的。

加油加油。

  • 3
  • +9番茄
  • 14只自习生围观
  • 2023年3月15日 10:47打卡
  • 1 周,4 日前有动静
  • 引用
  • 举报

action 怎么,又,去,15 了!

怀疑 reward 写反了…

(存档)
隐瞒师兄的点:1. GNN 最大的优势在于,可能能从小机房迁移到大机房,不多进行 6sigma 仿真。2. GNN 有成熟的掉包。

作者的近日打卡

猜你喜欢

昨天还不错 - 昨天复习略少,找工作有所进展。主要问题在于吃饭午饭效率低,浪费时间长。今天也是
昨天做的不太好 - 今天补回来不就行了!
这两天困坏了! - 晚上不知不觉就到十一点了,然后磨蹭磨蹭就到十一点半了,这时候才能睡。而早上要到七
感觉今天事情不是太多,太好了 - 昨天累的倒头就睡,荒废了好时光
  • aca
  • ♀ 37
  • 自律力12.01
慢慢,没有感觉 - 做了两组工程问题,正确率是23/30。 , 嗯…… , 加起来做了两个小时啊!!
我的生物钟终于调过来了! - 哈哈哈哈哈哈哈哈哈哈哈 , 从来没有这么早睡早起过。 , 以防我下次再这样,我的
实验ing - 昨晚把所有的情况都预想到了,就是没想到气相在用顶空不给我们做,液相坏了,那我做实
  • Sonia
  • ♀ 31
  • 自律力27.53
  • 河南郑州
还是做实验的日子比较舒服 - 几个月没做实验了,今儿终于开工了 , , 虽然开局不利,结果很惨烈 , ,
  • joanna
  • 6级
  • 自律力48.36
  • 江苏苏州
如何才能找回静下心来写东西的状态? - 拖延症日益严重,这个项目本子我从八月份就打算写,到现在还只是个框架,每天给自己找
  • Sonia
  • ♀ 31
  • 自律力27.53
  • 河南郑州
目前 OS 很快能糊完,工作那边有点麻烦 - 但我是心态超好的人,所以也问题不大。 , , 现在就想去吃饭了,回来先糊糊 O

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013