2) exploration policy
探索策略
1.
This paper elaborates on the low learning efficiency in reinforcement learning due to improper generalization and random exploration policy under deterministic MDPS and proposes a hierarchical reinforcement learning algorithm based on system model.
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法。
6) probing strategy
探索战略
补充资料:《探索》
中国电影论文集。于敏著。本书收集了《工业题材一解》、《时代和人》、《关于真人真事的写作》等17篇文章。作者结合自己的电影创作实践,从理论上对如何运用电影来反映社会主义时代和无产阶级劳动者、工业题材等问题进行了探讨,同时对电影的特性、电影的文学性、电影文学与文学的关系、文艺的真实性等问题,也发表了自己的见解。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条