题外话:列个想做的事的清单:
- 穿搭
- 某历史新书 + 邓小平传
- 紫微斗数
- 入门投资,如房产、股票、基金
题外话:列个想做的事的清单:
嗷,还有每天跟读新闻联播,可能还会跟读 fake news
当务之急:再设计一下 curriculum,然后开 train。
如果可能的话,设置 GPU 使用。
一个从头开始 train,一个接着最新 不成 的 train。
暂时不打算开 train 了,可能会再观察 1h。1h后见。
开始动一些歪想法… 如果能直接 reward shaping,会好嘛?试一下。
下一步应该是:写 pretrain。
(嚎啕大哭)PPO,求你!
下一步测试,ground truth 能不能 pick place,希望知道 是我代码的错,还是模型不好
语不惊人死不休
舍您其谁
pick 它 train 不起来 应该怎样呢 TT