回归迭代策略,regression iterative strategy,音标,读音,翻译,英文例句,英语词典

您的位置：首页 -> 词典 -> 回归迭代策略

1) regression iterative strategy 点击朗读

回归迭代策略

2) Iteractive regegression 点击朗读

迭代回归

3) Adaptive iterate 点击朗读

回归迭代

4) policy iteration 点击朗读

策略迭代

Tradional algorithms to solve POMPDs are value iteration algorithm and policy iteration algorithm.

介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解。

By the equivalent Markov process, formulas of performance potentials and average-cost optimality equations for SMCPs are derived, and a policy iteration algorithm and a value iteration algorithm are proposed, which can lead to an optimal or suboptimal stationary policy in a finite number of iterations.

利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证明了算法的收敛性。

An appropriate selection of basis function directly in?uences the learning performance of a policy iteration method during the value function approximation.

在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能。

更多例句>>

5) Iterative strategy 点击朗读

迭代策略

The al-gorithm is a integration of progressive alignment approach and iterative strategy. 点击朗读

该算法先用渐进方法进行多序列比对,然后通过迭代策略,利用上一轮多序列比对结果修正指导树,产生新一轮比对。

更多例句>>

6) the improivement 点击朗读

回归策略

补充资料：策略迭代法

　　动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程，交替使用"求值计算"和"策略改进"两个步骤，求出逐次改进的、最终达到或收敛于最优策略的策略序列。
　　
　　例如，在最短路径问题中，设给定M个点1，2，...，M。点M是目的点,с_ij>0是点i到点j的距离i≠j,с_ij=0,i,j=1,2,...,M,要求出点i到点M的最短路。记??(i)为从i到M的最短路长度。此问题的动态规划基本方程为　
　　(1)其策略迭代法的程序如下：选定一初始策略u₀(i),在这问题中,策略u(i)的意义是从点i出发走一步后到达的点，而且作为策略,它是集{1,2,...,M-1}上的函数。由u₀(i)解下列方程组求出相应的值函数??₀(i)：
　　
　　再由??₀(i)求改进的一次迭代策略u₁(i),使它是下列最小值问题的解：然后，再如前面一样,由u₁(i)求出相应的值函数??₁(i)，并由??₁(i)求得改进的二次迭代策略u₂(i),如此继续下去。可见求解(1)的策略迭代法的程序由下列两个基本步骤组成：
　　
　　①求值计算　由策略 u_n(i)求相应的值函数??_n(i)，即求下列方程的解：
　　
　　
　　
　　
　　②策略改进　由值函数??_n(i)求改进的策略,即求下列最小值问题的解：式中规定,如u_n(i)是上一问题的解,则取u_n₊₁(i)=u_n(i)。
　　
　　在一定条件下,由任选的初始策略出发,轮换进行这两个步骤, 经有限步N后将得出对所有i,u_N₊₁(i)=u_N(i)这样求得的u_N(i)就是最优策略，相应的值函数??_N(i)。是方程(1)的解。
　　
　　对于更一般形式的动态规划基本方程
　　
　　　(2)这里??，H，φ为给定实函数。上述两个步骤变成：
　　
　　①求值计算　由策略u_n(x)求相应的值函数 ??_n(x)，即求方程之解，n=0，1，2...。
　　
　　②策略改进　由值函数??_n(x)求改进的策略u_n₊₁(x)，即求最优值问题的解。
　　
　　对于满足适当条件的方程(2)和初始策略,上述两个步骤的解存在，并且在一定条件下,当n→ 时,所得序列{??_n(x)}与{u_n(x)}在某种意义下分别收敛于(2)的解和最优策略。
　　
　　策略迭代法最初是由R.贝尔曼提出的。1960年，R.A.霍华德对于一种马尔可夫决策过程模型，提出了适用的策略迭代法，给出了相应的收敛性证明。后来，发现策略迭代法和牛顿迭代法在一定条件下的等价性，于是，从算子方程的牛顿逼近法的角度去研究策略迭代法，得到了发展。
　　
　　对于范围很广的一类马尔可夫决策过程，其动态规划基本方程可以写成；式中??∈V，对所有 γ∈Γ:r(γ)∈V，γ为 V→V的线性算子,Γ为这种算子的族，而V 则是由指标值函数所构造的函数空间。假设当 ??(γ)是方程 r(γ)＋γ??＝0 的解时, 它是对应于策略γ的指标值函数。最优策略 γ定义为最优值问题的解。这时由策略迭代法所求得的序列 {??_n}和{γ_n}满足下列关系其中为 γ_n₊₁的逆算子。当σ是加托可微时, γ_n₊₁是σ在??_n处的加托导数。于是，上面的关系恰好表达了牛顿迭代法在算子方程中的推广。
　　

说明：补充资料仅用于学习参考，请勿用于其它任何用途。

参考词条

迭代法回归计算迭代回归模型迭代比对策略最优化迭代策略策略改进[迭代] 迭代求解策略速度回归策略自适应迭代回归算法 M步向前策略迭代

迭代回归法策略迭代法迭代Bargaining策略

说明：双击或选中下面任意单词，将显示该词的音标、读音、翻译等；选中中文或多个词，将显示翻译。
	您的位置：首页 -> 词典 -> 回归迭代策略 1) regression iterative strategy 回归迭代策略 2) Iteractive regegression 迭代回归 3) Adaptive iterate 回归迭代 4) policy iteration 策略迭代 1. Tradional algorithms to solve POMPDs are value iteration algorithm and policy iteration algorithm. 介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解。 2. By the equivalent Markov process, formulas of performance potentials and average-cost optimality equations for SMCPs are derived, and a policy iteration algorithm and a value iteration algorithm are proposed, which can lead to an optimal or suboptimal stationary policy in a finite number of iterations. 利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证明了算法的收敛性。 3. An appropriate selection of basis function directly in?uences the learning performance of a policy iteration method during the value function approximation. 在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能。更多例句>> 5) Iterative strategy 迭代策略 1. The al-gorithm is a integration of progressive alignment approach and iterative strategy. 该算法先用渐进方法进行多序列比对,然后通过迭代策略,利用上一轮多序列比对结果修正指导树,产生新一轮比对。更多例句>> 6) the improivement 回归策略补充资料：策略迭代法　　动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程，交替使用"求值计算"和"策略改进"两个步骤，求出逐次改进的、最终达到或收敛于最优策略的策略序列。　　　　例如，在最短路径问题中，设给定M个点1，2，...，M。点M是目的点,с_ij>0是点i到点j的距离i≠j,с_ij=0,i,j=1,2,...,M,要求出点i到点M的最短路。记??(i)为从i到M的最短路长度。此问题的动态规划基本方程为　　　(1)其策略迭代法的程序如下：选定一初始策略u₀(i),在这问题中,策略u(i)的意义是从点i出发走一步后到达的点，而且作为策略,它是集{1,2,...,M-1}上的函数。由u₀(i)解下列方程组求出相应的值函数??₀(i)：　　　　再由??₀(i)求改进的一次迭代策略u₁(i),使它是下列最小值问题的解：然后，再如前面一样,由u₁(i)求出相应的值函数??₁(i)，并由??₁(i)求得改进的二次迭代策略u₂(i),如此继续下去。可见求解(1)的策略迭代法的程序由下列两个基本步骤组成：　　　　①求值计算　由策略 u_n(i)求相应的值函数??_n(i)，即求下列方程的解：　　　　　　　　　　②策略改进　由值函数??_n(i)求改进的策略,即求下列最小值问题的解：式中规定,如u_n(i)是上一问题的解,则取u_n₊₁(i)=u_n(i)。　　　　在一定条件下,由任选的初始策略出发,轮换进行这两个步骤, 经有限步N后将得出对所有i,u_N₊₁(i)=u_N(i)这样求得的u_N(i)就是最优策略，相应的值函数??_N(i)。是方程(1)的解。　　　　对于更一般形式的动态规划基本方程　　　　　(2)这里??，H，φ为给定实函数。上述两个步骤变成：　　　　①求值计算　由策略u_n(x)求相应的值函数 ??_n(x)，即求方程之解，n=0，1，2...。　　　　②策略改进　由值函数??_n(x)求改进的策略u_n₊₁(x)，即求最优值问题的解。　　　　对于满足适当条件的方程(2)和初始策略,上述两个步骤的解存在，并且在一定条件下,当n→ 时,所得序列{??_n(x)}与{u_n(x)}在某种意义下分别收敛于(2)的解和最优策略。　　　　策略迭代法最初是由R.贝尔曼提出的。1960年，R.A.霍华德对于一种马尔可夫决策过程模型，提出了适用的策略迭代法，给出了相应的收敛性证明。后来，发现策略迭代法和牛顿迭代法在一定条件下的等价性，于是，从算子方程的牛顿逼近法的角度去研究策略迭代法，得到了发展。　　　　对于范围很广的一类马尔可夫决策过程，其动态规划基本方程可以写成；式中??∈V，对所有 γ∈Γ:r(γ)∈V，γ为 V→V的线性算子,Γ为这种算子的族，而V 则是由指标值函数所构造的函数空间。假设当 ??(γ)是方程 r(γ)＋γ??＝0 的解时, 它是对应于策略γ的指标值函数。最优策略 γ定义为最优值问题的解。这时由策略迭代法所求得的序列 {??_n}和{γ_n}满足下列关系其中为 γ_n₊₁的逆算子。当σ是加托可微时, γ_n₊₁是σ在??_n处的加托导数。于是，上面的关系恰好表达了牛顿迭代法在算子方程中的推广。　　说明：补充资料仅用于学习参考，请勿用于其它任何用途。参考词条迭代法回归计算迭代回归模型迭代比对策略最优化迭代策略策略改进[迭代] 迭代求解策略速度回归策略自适应迭代回归算法 M步向前策略迭代

©2011 dictall.com