2) exploration policy
探索策略
1.
This paper elaborates on the low learning efficiency in reinforcement learning due to improper generalization and random exploration policy under deterministic MDPS and proposes a hierarchical reinforcement learning algorithm based on system model.
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法。
5) directive search strategy
导向式搜索策略
补充资料:竞争定向订价策略
竞争定向订价策略
competition-oriented pricing strategy
竞争定向订价策略(eompetition一orientedprieing strategy)为适应市场竞争的需要,针对竞争产品的价格水平,使自己的产品的价格高于或低于竞争产品价格的订价策略。通常,高档名牌商品订高价,给消费者质量上乘、功能齐全的感觉,而日常用品采用订低价的策略,迎合消费者追求物美价廉的心态。这种订价策略就是利用消费者对产品价格的知觉特点,实现产品定位,以提高自己产品在消费者心目中的知觉地位。 (张玉峰撰马谋超审)
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条