强化学习同一个学习率的图不一样 强化学习同一个学习率的图一样吗


强化学习同一个学习率的图不一样 强化学习同一个学习率的图一样吗

文章插图
提高同一学习率的图不同 。监督学习规定,训练集和测试集的数据分布越近越好,但包含的数据不同 。分类任务中的一张图片不能同时放入训练集和测试集中 。由于具体情况下可能会出现训练集中不包含的图片,因此需要保证监督学习算法具有一定的泛化能力,可以在没有看到这张图片的情况下妥善处理 。加强学习的目的是提高马尔科夫决策过程中的智能策略,每次学习都是专门针对一项任务的 。因此,我们不能让增强学习来改善迷宫任务,然后采取良好的学习对策来做其他事情,即使让练习好的智能身体走一个布局略有变化的神秘宫殿,效果也会下降 。
【强化学习同一个学习率的图不一样 强化学习同一个学习率的图一样吗】