尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 强化学习是机器学习领域的一个重要分支,它通过模拟生命体大脑的学习思维模式来学习行动策略。与传统的学习方法不同,强化学习中的智能体在学习时不被直接告知需要采取哪些行动,而是得到这些行动带来的即时奖励学习一个策略最大化这些奖励。通过“试... 展开 强化学习是机器学习领域的一个重要分支,它通过模拟生命体大脑的学习思维模式来学习行动策略。与传统的学习方法不同,强化学习中的智能体在学习时不被直接告知需要采取哪些行动,而是得到这些行动带来的即时奖励学习一个策略最大化这些奖励。通过“试错”和“延迟奖励”这两种方式,强化学习能够处理很多传统机器学习很难处理的高交互性,决策性问题。深度强化学习在强化学习的基础上,把深度神经网络运用到其中。这可以解决传统强化学习只能处理动作空间和样本空间很小的数据的问题。其中,基于确定性策略梯度的深度强化学习算法则解决了连续的动作空间的数据问题。在这类算法中,比较著名的就是DDPG算法。然而DDPG算法存在过高估计所采取动作对应的累积回报值的问题和训练过程中策略波动过大的问题。TD3算法是基于DDPG算法的改进,但是它对所采取动作对应的累积回报值仍有估计不准确。同时在TD3的训练过程的策略的波动也很大。 本文针对上面两个问题,分别提出了两种改进算法。针对累积奖励值仍有估计不准确的问题,本文提出了λ-TD3算法。TD3算法用了两个Q网络取最小值来改善过估计。然而这种方式可能导致低估计。在λ-TD3算法中,基于TD误差定义了一个判断当前情况高估还是低估累积奖励的评估指数δ,并通过δ的值加权累计两个Q值。δ可以通过训练中的奖励来自适应调节自己的值。针对策略波动过大的问题,本文提出基于TD3的策略协同算法TD3++。该算法采用了两个策略网络协同选择策略,选择出奖励期望更高的动作,另外还给策略网络加入了dropout,这种改进方法可以解决TD3的策略波动问题,增加算法的稳定性。 本文在MoJuCo连续动作控制任务上对λ-TD3和TD3++进行了仿真实验。实验结果表明上述两种改进算法都取得了不错的效果。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。