1) M-step look-ahead policy iteration
M步向前策略迭代
1.
M-step look-ahead policy iteration for semi-Markov decision processes based on performance potentials;
SMDP基于性能势的M步向前策略迭代
2) policy iteration
策略迭代
1.
Tradional algorithms to solve POMPDs are value iteration algorithm and policy iteration algorithm.
介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解。
2.
By the equivalent Markov process, formulas of performance potentials and average-cost optimality equations for SMCPs are derived, and a policy iteration algorithm and a value iteration algorithm are proposed, which can lead to an optimal or suboptimal stationary policy in a finite number of iterations.
利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证明了算法的收敛性。
3.
An appropriate selection of basis function directly in?uences the learning performance of a policy iteration method during the value function approximation.
在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能。
3) Iterative strategy
迭代策略
1.
The al-gorithm is a integration of progressive alignment approach and iterative strategy.
该算法先用渐进方法进行多序列比对,然后通过迭代策略,利用上一轮多序列比对结果修正指导树,产生新一轮比对。
5) tactic iinteraction
策略迭代法
补充资料:迭步
1.接连;连忙。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条