为啥RL泛化这么难UC伯克利博士从认知POMDP 隐式部分可观察解读

发布时间：2021-12-03 01:11:57 所属栏目：大数据来源：互联网

导读：强化学习为何泛化如此困难？来自加州大学伯克利分校等机构的研究者从认知 POMDP、隐式部分可观察两个方面进行解释。当今强化学习（RL）的问题很多，诸如收敛效果不好。在偏弱的实验环境里，模型测试结果看起来尚可，许多问题暴露得不明显，但大量实验已经证

强化学习为何泛化如此困难？来自加州大学伯克利分校等机构的研究者从认知 POMDP、隐式部分可观察两个方面进行解释。

当今强化学习（RL）的问题很多，诸如收敛效果不好。在偏弱的实验环境里，模型测试结果看起来尚可，许多问题暴露得不明显，但大量实验已经证明深度 RL 泛化很困难：尽管 RL 智能体可以学习执行非常复杂的任务，但它似乎对不同任务的泛化能力较差，相比较而言，监督深度网络具有较好的泛化能力。

有研究者认为，对于监督学习来说，发生一次错误只是分类错一张图片。而对于 MDP（马尔可夫决策过程）假设下的 RL，一次识别错误就会导致次优决策，甚至可能一直错误下去，这也是 RL 在现实世界没法用的根源。

（编辑：晋中站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

安徽合肥人工智能产业	为了不emo，我将自己培
AI芯片公司拿下超级石	Vitalik 协议设计中的