尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 元强化学(Meta-RL)结合了元学习和深度强化学习,是目前机器学习领域的研究热点之一。Meta-RL算法从一系列任务中学习并提取先验知识,从而利用先验知识快速适应新的任务。传统Meta-RL算法存在元训练计算量过大、训练时间过长、样本利用率低等问题。基... 展开 元强化学(Meta-RL)结合了元学习和深度强化学习,是目前机器学习领域的研究热点之一。Meta-RL算法从一系列任务中学习并提取先验知识,从而利用先验知识快速适应新的任务。传统Meta-RL算法存在元训练计算量过大、训练时间过长、样本利用率低等问题。基于任务推断的元强化学习算法通过引入任务信念来形式化表征任务,将元强化学习问题转化为在线的任务信念推断与基于任务信念的策略学习问题,并结合了异策略强化学习算法提升了元训练的效率。然而,传统的基于任务推断的元强化学习算法存在着任务推断效率低、忽略探索过程重要性等问题。针对上述问题,该文提出了自适应调节策略熵方法对其进行优化,并在改进后的算法的基础上设计了一种分离探索者的任务推断机制,还设计了一种引导探索者对任务进行充分探索的内在奖赏,依次对基于任务推断的元强化学习算法进行了改进,具体研究内容如下: (1)基于自适应调节策略熵的任务推断元强化学习算法。传统的基于任务推断的元强化学习算法构建在最大熵强化学习框架之上,最大熵强化学习通过温度参数控制探索与利用的平衡。而在元强化学习问题场景中,智能体将面临大量的不同的新任务,每个任务的奖赏空间分布各不相同,使得每个任务所对应的最优温度参数也各不相同。而传统的基于任务推断的元强化学习算法直接为元训练集中的所有任务设置相同的温度参数。针对此问题,该文提出一种基于自适应调节策略熵的任务推断元强化学习方法,该方法能够根据任务奖赏分布自适应地调节期望回报与策略熵的相对比重,进而提升模型的任务适应能力。 (2)基于分离探索者的任务推断元强化学习方法。基于自适应调节策略熵的任务推断元强化学习算法能够自动调节温度参数以适应不同的任务奖赏分布,然而该算法忽略了任务探索对于任务推断过程的重要性。在上述算法中,智能体在任务探索和利用任务信念适应任务时采用了相同的策略,导致任务推断效率较低。针对此问题,该文提出一种基于分离探索者的任务推断元强化学习方法,该方法分别学习了任务探索策略和任务控制策略,智能体能够在两种策略之间灵活切换,从而帮助模型提升性能。 (3)基于衰减任务不确定性的任务推断元强化学习方法。基于分离探索者的任务推断元强化学习方法分别学习了任务探索策略和任务控制策略,能够有效提升模型性能,但是探索策略的学习完全依赖于探索策略在环境中的表现,缺乏一种内在奖赏来引导探索策略执行有效的探索,导致模型在稀疏奖赏环境中的表现欠佳。针对此问题,该文根据智能体获取的任务信息增益设计了一种内在奖赏,提出了一种基于衰减任务不确定性的任务推断元强化学习方法,该方法能够有效提升任务目标的推断效率,帮助智能体快速适应任务。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。