尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 深度强化学习在众多领域都取得了巨大的成功。目前,大多数深度强化学习方法都是基于历史信息进行规划,这类方法没有考虑到未来信息对决策过程可能起到指导的作用。此外,现有利用未来信息进行规划的方法,其通常的做法是建立环境模型,进而利用模型... 展开 深度强化学习在众多领域都取得了巨大的成功。目前,大多数深度强化学习方法都是基于历史信息进行规划,这类方法没有考虑到未来信息对决策过程可能起到指导的作用。此外,现有利用未来信息进行规划的方法,其通常的做法是建立环境模型,进而利用模型产生的数据训练规划算法,而现实中很难获取系统准确模型。为了将未来信息合理纳入规划过程,本文研究了如何利用未来信息辅助决策,主要工作与贡献分为以下两个方面: (1)现实环境往往是部分可观测的。现有的部分可观测环境下的规划算法通常使用POMDP,DRQN等方法。此类方法中信念状态表示均未用到未来信息部分。而未来信息中通常包含了辅助决策的相关信息。基于动作的对比预测编码算法将未来信息纳入到信念状态表示,使得状态表示能够包含全局状态的关键信息。但该算法仅将其作为状态表示,没有将其应用于部分可观测环境规划问题中。本文利用基于动作的对比预测编码算法表示信念状态,解决部分可观测环境规划问题,同时将下一步预测特征也作为决策依据辅助决策,提高了算法的规划效果,并通过实验说明了算法的有效性。 (2)现有利用未来信息辅助决策的方法,例如deepmind提出的基于想象力算法,通过训练数据建立环境模型,再根据模型产生预测轨迹,预测轨迹结合无模型方法训练策略。但通常情况下,现实中获取环境准确模型十分困难,模型不准确会导致预测信息偏差,使得预测信息对规划有误导作用。考虑到当前状态过去可能经历过,从训练数据中抽取未来相关信息的方法变得可行。现有的利用训练数据中的未来信息辅助决策的方法,通常采用差分法查找对比,算法效率低。本文研究了如何快速从训练数据中找到未来相关信息以辅助决策。本文算法利用高斯随机投影的方式增加索引,快速搜索训练数据中过去相似状态,找到后续相关信息辅助决策,提高了算法效率的同时,避免了建模不准确带来的问题。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。