#戒断# PPO 目前没 train work

若 PPO 都不 work,那 DDPG 是更不可能 work 的,整个毕设技术路线就走不通。

(虽然 GNN 项目 和 托福调研之类的不会受影响)

所以目前的任务就是把 PPO train 出来。可能是 reward 设置有问题。要不然干脆 supply 越高越好。

  • 3
  • +8番茄
  • 92只自习生围观
  • 2023年3月9日 11:04打卡
  • 12 月前有动静
  • 引用
  • 举报

看看别人的 reward 怎么设置的。

我突然深切地怀疑,我们 DC cooling 的技术路线走不通。如果总功耗 = 常数 × 制冷量 + 常数,冷量要抵消热量 相当于是固定的,那么优化 supply 温度好像没什么意义,因为冷量固定 => return - supply 固定。

感觉应该是,把冷风更好地利用起来,避免出现局部热点 另一边反而过冷,这样的情况吧。

啊…… 今天晚上光看托福了… 还没 check 变频空调 或者 修改其他 reward 的事。

加油啊,正在追寻 dolce 的我。加油啊。

作者的近日打卡

猜你喜欢

要做的事情好像好多,写文章,学习mendeley,zotero的使用,建服务器 - 要做的事情好像很多,写文章,学习,建服务器等等,但是如何下手去做呢?年末准备的好
不做procrastinator - 专注
今天先看Financial的东西 - 然后争取把Predictive Modeling的作业做完
pretrain - 1. 悬空可能会 violate。 , 2. 给定 pick 时不调用 pick
creative work没法预测准时间的 - 数据分析是creative work, 只能一直做, 没法预测要完成的时间
今天应该能把 exploration 大致搞明白 - 目前的想法是,exploration + multi-fidelity,做 A
上午我们先 check OS 吧 - 软设进度计划之类的,可以等到形策写。 , , 工作方面,今天中午下午还可以听
大家都希望 continuous work - 待办: , 1. 把 auxil 训起来; , 2. 改改 reward,bas
呜呜呜,看起来没 train 出来 - 可能要设计更精细的 curriculum。
想试着用 ML 糊弄一下 room-level model - 找出几个能代表一片颜色的关键点,它们的温度压力 + 压力作为 state,再联合

合作伙伴

线上在线自习室晚自习。番茄工作法、四象限、打卡、作业清单、作业辅导、作业交流、作业跟踪、作业计划、个人宣传相关内容

行恒 © 行恒 2013