策略迭代法,tactic iinteraction,音标,读音,翻译,英文例句,英语词典

您的位置：首页 -> 词典 -> 策略迭代法

1) tactic iinteraction 点击朗读

策略迭代法

2) policy iteration 点击朗读

策略迭代

Tradional algorithms to solve POMPDs are value iteration algorithm and policy iteration algorithm.

介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解。

By the equivalent Markov process, formulas of performance potentials and average-cost optimality equations for SMCPs are derived, and a policy iteration algorithm and a value iteration algorithm are proposed, which can lead to an optimal or suboptimal stationary policy in a finite number of iterations.

利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证明了算法的收敛性。

An appropriate selection of basis function directly in?uences the learning performance of a policy iteration method during the value function approximation.

在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能。

更多例句>>

3) Iterative strategy 点击朗读

迭代策略

The al-gorithm is a integration of progressive alignment approach and iterative strategy. 点击朗读

该算法先用渐进方法进行多序列比对,然后通过迭代策略,利用上一轮多序列比对结果修正指导树,产生新一轮比对。

更多例句>>

4) iterative bargaining strategy 点击朗读

迭代Bargaining策略

例句>>

5) iterative alignment strategy 点击朗读

迭代比对策略

6) regression iterative strategy 点击朗读

回归迭代策略

补充资料：策略迭代法

　　动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程，交替使用"求值计算"和"策略改进"两个步骤，求出逐次改进的、最终达到或收敛于最优策略的策略序列。
　　
　　例如，在最短路径问题中，设给定M个点1，2，...，M。点M是目的点,с_ij>0是点i到点j的距离i≠j,с_ij=0,i,j=1,2,...,M,要求出点i到点M的最短路。记??(i)为从i到M的最短路长度。此问题的动态规划基本方程为　
　　(1)其策略迭代法的程序如下：选定一初始策略u₀(i),在这问题中,策略u(i)的意义是从点i出发走一步后到达的点，而且作为策略,它是集{1,2,...,M-1}上的函数。由u₀(i)解下列方程组求出相应的值函数??₀(i)：
　　
　　再由??₀(i)求改进的一次迭代策略u₁(i),使它是下列最小值问题的解：然后，再如前面一样,由u₁(i)求出相应的值函数??₁(i)，并由??₁(i)求得改进的二次迭代策略u₂(i),如此继续下去。可见求解(1)的策略迭代法的程序由下列两个基本步骤组成：
　　
　　①求值计算　由策略 u_n(i)求相应的值函数??_n(i)，即求下列方程的解：
　　
　　
　　
　　
　　②策略改进　由值函数??_n(i)求改进的策略,即求下列最小值问题的解：式中规定,如u_n(i)是上一问题的解,则取u_n₊₁(i)=u_n(i)。
　　
　　在一定条件下,由任选的初始策略出发,轮换进行这两个步骤, 经有限步N后将得出对所有i,u_N₊₁(i)=u_N(i)这样求得的u_N(i)就是最优策略，相应的值函数??_N(i)。是方程(1)的解。
　　
　　对于更一般形式的动态规划基本方程
　　
　　　(2)这里??，H，φ为给定实函数。上述两个步骤变成：
　　
　　①求值计算　由策略u_n(x)求相应的值函数 ??_n(x)，即求方程之解，n=0，1，2...。
　　
　　②策略改进　由值函数??_n(x)求改进的策略u_n₊₁(x)，即求最优值问题的解。
　　
　　对于满足适当条件的方程(2)和初始策略,上述两个步骤的解存在，并且在一定条件下,当n→ 时,所得序列{??_n(x)}与{u_n(x)}在某种意义下分别收敛于(2)的解和最优策略。
　　
　　策略迭代法最初是由R.贝尔曼提出的。1960年，R.A.霍华德对于一种马尔可夫决策过程模型，提出了适用的策略迭代法，给出了相应的收敛性证明。后来，发现策略迭代法和牛顿迭代法在一定条件下的等价性，于是，从算子方程的牛顿逼近法的角度去研究策略迭代法，得到了发展。
　　
　　对于范围很广的一类马尔可夫决策过程，其动态规划基本方程可以写成；式中??∈V，对所有 γ∈Γ:r(γ)∈V，γ为 V→V的线性算子,Γ为这种算子的族，而V 则是由指标值函数所构造的函数空间。假设当 ??(γ)是方程 r(γ)＋γ??＝0 的解时, 它是对应于策略γ的指标值函数。最优策略 γ定义为最优值问题的解。这时由策略迭代法所求得的序列 {??_n}和{γ_n}满足下列关系其中为 γ_n₊₁的逆算子。当σ是加托可微时, γ_n₊₁是σ在??_n处的加托导数。于是，上面的关系恰好表达了牛顿迭代法在算子方程中的推广。
　　

说明：补充资料仅用于学习参考，请勿用于其它任何用途。

参考词条

M步向前策略迭代速度松弛迭代策略迭代法迭代算法迭代方法 Newton迭代法

最优化迭代策略策略改进[迭代] 迭代求解策略迭代伽略金法

说明：双击或选中下面任意单词，将显示该词的音标、读音、翻译等；选中中文或多个词，将显示翻译。
	您的位置：首页 -> 词典 -> 策略迭代法 1) tactic iinteraction 策略迭代法 2) policy iteration 策略迭代 1. Tradional algorithms to solve POMPDs are value iteration algorithm and policy iteration algorithm. 介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解。 2. By the equivalent Markov process, formulas of performance potentials and average-cost optimality equations for SMCPs are derived, and a policy iteration algorithm and a value iteration algorithm are proposed, which can lead to an optimal or suboptimal stationary policy in a finite number of iterations. 利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证明了算法的收敛性。 3. An appropriate selection of basis function directly in?uences the learning performance of a policy iteration method during the value function approximation. 在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能。更多例句>> 3) Iterative strategy 迭代策略 1. The al-gorithm is a integration of progressive alignment approach and iterative strategy. 该算法先用渐进方法进行多序列比对,然后通过迭代策略,利用上一轮多序列比对结果修正指导树,产生新一轮比对。更多例句>> 4) iterative bargaining strategy 迭代Bargaining策略例句>> 5) iterative alignment strategy 迭代比对策略 6) regression iterative strategy 回归迭代策略补充资料：策略迭代法　　动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程，交替使用"求值计算"和"策略改进"两个步骤，求出逐次改进的、最终达到或收敛于最优策略的策略序列。　　　　例如，在最短路径问题中，设给定M个点1，2，...，M。点M是目的点,с_ij>0是点i到点j的距离i≠j,с_ij=0,i,j=1,2,...,M,要求出点i到点M的最短路。记??(i)为从i到M的最短路长度。此问题的动态规划基本方程为　　　(1)其策略迭代法的程序如下：选定一初始策略u₀(i),在这问题中,策略u(i)的意义是从点i出发走一步后到达的点，而且作为策略,它是集{1,2,...,M-1}上的函数。由u₀(i)解下列方程组求出相应的值函数??₀(i)：　　　　再由??₀(i)求改进的一次迭代策略u₁(i),使它是下列最小值问题的解：然后，再如前面一样,由u₁(i)求出相应的值函数??₁(i)，并由??₁(i)求得改进的二次迭代策略u₂(i),如此继续下去。可见求解(1)的策略迭代法的程序由下列两个基本步骤组成：　　　　①求值计算　由策略 u_n(i)求相应的值函数??_n(i)，即求下列方程的解：　　　　　　　　　　②策略改进　由值函数??_n(i)求改进的策略,即求下列最小值问题的解：式中规定,如u_n(i)是上一问题的解,则取u_n₊₁(i)=u_n(i)。　　　　在一定条件下,由任选的初始策略出发,轮换进行这两个步骤, 经有限步N后将得出对所有i,u_N₊₁(i)=u_N(i)这样求得的u_N(i)就是最优策略，相应的值函数??_N(i)。是方程(1)的解。　　　　对于更一般形式的动态规划基本方程　　　　　(2)这里??，H，φ为给定实函数。上述两个步骤变成：　　　　①求值计算　由策略u_n(x)求相应的值函数 ??_n(x)，即求方程之解，n=0，1，2...。　　　　②策略改进　由值函数??_n(x)求改进的策略u_n₊₁(x)，即求最优值问题的解。　　　　对于满足适当条件的方程(2)和初始策略,上述两个步骤的解存在，并且在一定条件下,当n→ 时,所得序列{??_n(x)}与{u_n(x)}在某种意义下分别收敛于(2)的解和最优策略。　　　　策略迭代法最初是由R.贝尔曼提出的。1960年，R.A.霍华德对于一种马尔可夫决策过程模型，提出了适用的策略迭代法，给出了相应的收敛性证明。后来，发现策略迭代法和牛顿迭代法在一定条件下的等价性，于是，从算子方程的牛顿逼近法的角度去研究策略迭代法，得到了发展。　　　　对于范围很广的一类马尔可夫决策过程，其动态规划基本方程可以写成；式中??∈V，对所有 γ∈Γ:r(γ)∈V，γ为 V→V的线性算子,Γ为这种算子的族，而V 则是由指标值函数所构造的函数空间。假设当 ??(γ)是方程 r(γ)＋γ??＝0 的解时, 它是对应于策略γ的指标值函数。最优策略 γ定义为最优值问题的解。这时由策略迭代法所求得的序列 {??_n}和{γ_n}满足下列关系其中为 γ_n₊₁的逆算子。当σ是加托可微时, γ_n₊₁是σ在??_n处的加托导数。于是，上面的关系恰好表达了牛顿迭代法在算子方程中的推广。　　说明：补充资料仅用于学习参考，请勿用于其它任何用途。参考词条 M步向前策略迭代速度松弛迭代策略迭代法迭代算法迭代方法 Newton迭代法

©2011 dictall.com