谢谢师兄的本科毕设论文,对于应付校内很有帮助【合十】
昨天直接很莽地约老师今天讨论。现在讨论结束了。hmmmm。hmmmm。
记性比较差,这次没有很快提炼出重点。大概就是加入更多“应用场景本身的结构”这种因素?(这不太符合目前的我通过 cs 工作形成的对研究美感的认识)
首先,将 penalty 视为约束条件,reward 只包含设定温度尽可能高,变成带约束的 RL 问题。然后,某些情况的不可行性,根据以往情况推断,是不必测就已经知道的。
说实话我感觉这很像:每一步都贪心尽可能把空调温度调高。这就不是 RL 了,这是监督学习()
或许等我测出来,就可以知道我的 policy 是不是这么工作的了。我是说,拿 RL 建模是合理的,但说不定问题可以简化为贪心呢?
最紧迫的一点就是改造机房。6 个负载。从联通的机房里 copy 一部分。(MDC)
(别再拿着以前机房收集的数据做 sklearn 了)
(好担心这下子 6sigma 模拟变慢啊)
老师说工作重点放在灰箱。分区压力法让他想到了风速与风压。
1 灰箱模型尽可能利用 DC cooling 问题结构,2 RL 过程尽可能利用问题结构。
btw 今天下午简单总结一下讨论内容,写个纪要,发给贾老师。(我甚至开了云录制呢)
纪要写完了。品出一种奇妙感觉:老师这个项目只是让我做着玩玩,没有很高的要求…