- 为什么有时候仍然不 pick?虽然 place 每次都有动作。
- 为什么 train 的时候,不 pick 也不 place?输出的是什么,发生了什么??
- pick and place 希望有非常鲁棒的模型。
要不再 train 一下 pick 吧?
希望今天早上写完代码。
pick 它 train 不起来 应该怎样呢 TT
题外话:列个想做的事的清单:
嗷,还有每天跟读新闻联播,可能还会跟读 fake news
当务之急:再设计一下 curriculum,然后开 train。
如果可能的话,设置 GPU 使用。
一个从头开始 train,一个接着最新 不成 的 train。
暂时不打算开 train 了,可能会再观察 1h。1h后见。
开始动一些歪想法… 如果能直接 reward shaping,会好嘛?试一下。
下一步应该是:写 pretrain。
(嚎啕大哭)PPO,求你!
下一步测试,ground truth 能不能 pick place,希望知道 是我代码的错,还是模型不好