嗯嗯,是噢
《强化学习导论》有云:RL 致命三角包含 bootstrap(根据当前估计进一步估计)、off-policy(探索和 exploit 分开)、approximation(泛化,放弃Q表),三者同时出现会不稳定。这一现象主要是因为,在强化学习中,bootstrap 带来了未来奖励信号的不确定性,approximation 本身就会带来近似误差(行为和 reward 因果关系的错误估计),off-policy 自身有数不平衡采样偏差。缓解致命三角问题的方法包括使用经验回放(Experience Replay)让样本更加独立同分布减少相关性,使用目标网络(Target Network)来稳定估计值函数,以及使用合适的approximation(如深度神经网络)等。
真是有趣的好说法ww
哥们是做机器学习方向的吗?