马氏决策过程,Markov decision processes,音标,读音,翻译,英文例句,英语词典

您的位置：首页 -> 词典 -> 马氏决策过程

1) Markov decision processes 点击朗读

马氏决策过程

Optimal control of probabilistic discrete event systems on Markov decision processes; 点击朗读

基于马氏决策过程的概率离散事件系统最优控制

In this paper, the relative value iteration algorithm for average reward Markov decision processes (MDP)is investigated.

本文研究平均报酬马氏决策过程（MDP）的相对值迭代算法。

In this paper, a new policy iteration method called temporal differences(TD for short) policy iteration method for Markov decision processes with averagecriteria is considered.

本文考虑平均准则模型马氏决策过程的一种改进的策略迭代算法:即时差分(TD:Temporal-Differences)策略迭代法。

更多例句>>

2) Markov decision process 点击朗读

马氏决策过程

By use of the method of Markov Decision Process(MDP),the optimal eptimal equation that the minimal expected discounted cost satisfies is constructed,and a(U~*_t,y~*_t(b))structure optimal policy is obtained:If the storehouse capacity less than U~*_t,then expand to U~*_t,and order to U~*_t;else the storehouse capacity keep constant,and order to y~*_t(b)case the inventory less tha.

利用马氏决策过程(MDP)的方法,建立了最小折现成本所满足的最优方程,在此基础上,得到了一个(Ut*,yt*(b))结构的最优策略:当仓库容量小于Ut*时将容量扩充到Ut*,并订货至Ut*;否则保持仓库容量不变,且当存贮量小于yt*(b)时订货到yt*(b),反之不订货。

This paper studies average optimality in Markov decision processes with countable state space, nonempty action sets and unbounded reward function.

本文对可数状态集、非空决策集、报酬无界的平均准则马氏决策过程,提出了一组新的条件,在此条件下存在（ε）最优平稳策略,且当最优不等式中的和有定义时最优不等式也成立。

更多例句>>

3) discrete-time Markov decision process 点击朗读

离散时间马氏决策过程

4) Markov decision 点击朗读

马氏决策

State jump research of Markov decision processes in economic system ; 点击朗读

经济系统中马氏决策过程的状态跳跃研究

According to the state of aeismatic structure,by introduction of finite period Markov decision theory,the problem of maintenance strategy optimization of aeismatic structure during design reference is discussed in detail.

针对抗震结构所处的不同状态,采用有限时期马氏决策理论,探讨了设计基准期内抗震结构维修策略优化问题,建立了设计基准期内使结构期望报酬最大的随机动态规划数学模型,通过对马氏决策逆序定值的求解可以使决策者清楚明了在设计基准期内,每一检测维修阶段的最佳维修策略和总的最大期望报酬,从而为维修决策提供科学依据。

更多例句>>

5) piecewise deterministic Markov processes 点击朗读

逐段决定马氏过程

6) Markov process 点击朗读

马氏过程

To study special Markov processes with infinitely divisible limit distributions, the characteristic function was used.

研究极限分布具有无穷可分性的马氏过程。

The concept of average Markov process is introduced. 点击朗读

引进了均马氏过程的概念,证明了马氏过程或者鞅都是均马氏过程,但均马氏过程可以不是马氏过程也可以不是鞅。

Based on the description of hybrid states and under certain assumptions, the system becomes a time-homogeneous hybrid state Markov process.

本文通过引入混合状态,使大部分DEDS成为时齐的混合状态马氏过程,然后用半群理论来研究该马氏过程,建立了有关半群算子的偏微分方程,并进一步把该方程转化为积分方程,并证明了积分方程有唯一解,解可由迭代法求出。

更多例句>>

补充资料：马尔可夫决策过程

　　基于马尔可夫过程理论的随机动态系统的最优决策过程，英文缩写 MDP。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物，故又称马尔可夫型随机动态规划，属于运筹学中数学规划的一个分支。马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，序贯地作出决策。即根据每个时刻观察到的状态，从可用的行动集合中选用一个行动作出决策，系统下一步（未来）的状态是随机的，并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态，再作新的决策，依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形，在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制，其决策变量就是控制变量。
　　
　　发展概况　50年代R.贝尔曼研究动态规划时和L.S.沙普利研究随机对策时已出现马尔可夫决策过程的基本思想。R.A.霍华德(1960)和D.布莱克韦尔(1962)等人的研究工作奠定了马尔可夫决策过程的理论基础。1965年，布莱克韦尔关于一般状态空间的研究和E.B.丁金关于非时齐（非时间平稳性）的研究，推动了这一理论的发展。1960年以来，马尔可夫决策过程理论得到迅速发展，应用领域不断扩大。凡是以马尔可夫过程作为数学模型的问题，只要能引入决策和效用结构，均可应用这种理论。
　　
　　数学描述　周期地进行观察的马尔可夫决策过程可用如下五元组来描述：{S，(A(i)，i∈S，q，γ，V},其中S 为系统的状态空间（见状态空间法）；A(i)为状态i(i∈S)的可用行动（措施，控制）集；q为时齐的马尔可夫转移律族，族的参数是可用的行动； γ是定义在Γ(Г呏{(i，ɑ):a∈A(i)，i∈S}上的单值实函数；若观察到的状态为i，选用行动a，则下一步转移到状态 j的概率为q(j│i，ɑ)，而且获得报酬γ(j，ɑ),它们均与系统的历史无关；V是衡量策略优劣的指标（准则）。
　　
　　策略　策略是提供给决策者在各个时刻选取行动的规则，记作 π＝(π₀，π₁，π₂，...， π_n，π_{_n＋1}...)，其中π_n是时刻 n选取行动的规则。从理论上来说，为了在大范围寻求最优策略π_n，最好根据时刻 n以前的历史，甚至是随机地选择最优策略。但为了便于应用，常采用既不依赖于历史、又不依赖于时间的策略，甚至可以采用确定性平稳策略。
　　
　　指标　衡量策略优劣的常用指标有折扣指标和平均指标。折扣指标是指长期折扣〔把 t时刻的单位收益折合成0时刻的单位收益的β^t(β<1)倍〕期望总报酬。平均指标是指单位时间的平均期望报酬。采用折扣指标的马尔可夫决策过程称为折扣模型。业已证明：若一个策略是β折扣最优的，则初始时刻的决策规则所构成的平稳策略对同一β也是折扣最优的，而且它还可以分解为若干个确定性平稳策略，它们对同一β都是最优的。现在已有计算这种策略的算法。采用平均指标的马尔可夫决策过程称为平均模型。业已证明：当状态空间S 和行动集A(i)均为有限集时，对于平均指标存在最优的确定性平稳策略；当S和（或）A(i)不是有限的情况,必须增加条件，才有最优的确定性平稳策略。计算这种策略的算法也已研制出来。
　　
　　参考书目
　　　R.A.Howard,Dynamic Programming and Markov Processes, MIT Press, Cambridge Mass., 1960.
　　

说明：补充资料仅用于学习参考，请勿用于其它任何用途。

参考词条

准马尔科夫决策过程逻辑马尔可夫决策过程关系马尔可夫决策过程分层马尔可夫决策过程

马尔可夫决策过程半马尔可夫决策过程马尔科夫决策过程

说明：双击或选中下面任意单词，将显示该词的音标、读音、翻译等；选中中文或多个词，将显示翻译。
	您的位置：首页 -> 词典 -> 马氏决策过程 1) Markov decision processes 马氏决策过程 1. Optimal control of probabilistic discrete event systems on Markov decision processes; 基于马氏决策过程的概率离散事件系统最优控制 2. In this paper, the relative value iteration algorithm for average reward Markov decision processes (MDP)is investigated. 本文研究平均报酬马氏决策过程（MDP）的相对值迭代算法。 3. In this paper, a new policy iteration method called temporal differences(TD for short) policy iteration method for Markov decision processes with averagecriteria is considered. 本文考虑平均准则模型马氏决策过程的一种改进的策略迭代算法:即时差分(TD:Temporal-Differences)策略迭代法。更多例句>> 2) Markov decision process 马氏决策过程 1. By use of the method of Markov Decision Process(MDP),the optimal eptimal equation that the minimal expected discounted cost satisfies is constructed,and a(U~_t,y~_t(b))structure optimal policy is obtained:If the storehouse capacity less than U~_t,then expand to U~_t,and order to U~_t;else the storehouse capacity keep constant,and order to y~_t(b)case the inventory less tha. 利用马氏决策过程(MDP)的方法,建立了最小折现成本所满足的最优方程,在此基础上,得到了一个(Ut,yt(b))结构的最优策略:当仓库容量小于Ut时将容量扩充到Ut,并订货至Ut;否则保持仓库容量不变,且当存贮量小于yt(b)时订货到yt(b),反之不订货。 2. This paper studies average optimality in Markov decision processes with countable state space, nonempty action sets and unbounded reward function. 本文对可数状态集、非空决策集、报酬无界的平均准则马氏决策过程,提出了一组新的条件,在此条件下存在（ε）最优平稳策略,且当最优不等式中的和有定义时最优不等式也成立。更多例句>> 3) discrete-time Markov decision process 离散时间马氏决策过程 4) Markov decision 马氏决策 1. State jump research of Markov decision processes in economic system ; 经济系统中马氏决策过程的状态跳跃研究 2. According to the state of aeismatic structure,by introduction of finite period Markov decision theory,the problem of maintenance strategy optimization of aeismatic structure during design reference is discussed in detail. 针对抗震结构所处的不同状态,采用有限时期马氏决策理论,探讨了设计基准期内抗震结构维修策略优化问题,建立了设计基准期内使结构期望报酬最大的随机动态规划数学模型,通过对马氏决策逆序定值的求解可以使决策者清楚明了在设计基准期内,每一检测维修阶段的最佳维修策略和总的最大期望报酬,从而为维修决策提供科学依据。更多例句>> 5) piecewise deterministic Markov processes 逐段决定马氏过程 6) Markov process 马氏过程 1. To study special Markov processes with infinitely divisible limit distributions, the characteristic function was used. 研究极限分布具有无穷可分性的马氏过程。 2. The concept of average Markov process is introduced. 引进了均马氏过程的概念,证明了马氏过程或者鞅都是均马氏过程,但均马氏过程可以不是马氏过程也可以不是鞅。 3. Based on the description of hybrid states and under certain assumptions, the system becomes a time-homogeneous hybrid state Markov process. 本文通过引入混合状态,使大部分DEDS成为时齐的混合状态马氏过程,然后用半群理论来研究该马氏过程,建立了有关半群算子的偏微分方程,并进一步把该方程转化为积分方程,并证明了积分方程有唯一解,解可由迭代法求出。更多例句>> 补充资料：马尔可夫决策过程　　基于马尔可夫过程理论的随机动态系统的最优决策过程，英文缩写 MDP。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物，故又称马尔可夫型随机动态规划，属于运筹学中数学规划的一个分支。马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，序贯地作出决策。即根据每个时刻观察到的状态，从可用的行动集合中选用一个行动作出决策，系统下一步（未来）的状态是随机的，并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态，再作新的决策，依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形，在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制，其决策变量就是控制变量。　　　　发展概况　50年代R.贝尔曼研究动态规划时和L.S.沙普利研究随机对策时已出现马尔可夫决策过程的基本思想。R.A.霍华德(1960)和D.布莱克韦尔(1962)等人的研究工作奠定了马尔可夫决策过程的理论基础。1965年，布莱克韦尔关于一般状态空间的研究和E.B.丁金关于非时齐（非时间平稳性）的研究，推动了这一理论的发展。1960年以来，马尔可夫决策过程理论得到迅速发展，应用领域不断扩大。凡是以马尔可夫过程作为数学模型的问题，只要能引入决策和效用结构，均可应用这种理论。　　　　数学描述　周期地进行观察的马尔可夫决策过程可用如下五元组来描述：{S，(A(i)，i∈S，q，γ，V},其中S 为系统的状态空间（见状态空间法）；A(i)为状态i(i∈S)的可用行动（措施，控制）集；q为时齐的马尔可夫转移律族，族的参数是可用的行动； γ是定义在Γ(Г呏{(i，ɑ):a∈A(i)，i∈S}上的单值实函数；若观察到的状态为i，选用行动a，则下一步转移到状态 j的概率为q(j│i，ɑ)，而且获得报酬γ(j，ɑ),它们均与系统的历史无关；V是衡量策略优劣的指标（准则）。　　　　策略　策略是提供给决策者在各个时刻选取行动的规则，记作 π＝(π₀，π₁，π₂，...， π_n，π_{_n＋1}...)，其中π_n是时刻 n选取行动的规则。从理论上来说，为了在大范围寻求最优策略π_n，最好根据时刻 n以前的历史，甚至是随机地选择最优策略。但为了便于应用，常采用既不依赖于历史、又不依赖于时间的策略，甚至可以采用确定性平稳策略。　　　　指标　衡量策略优劣的常用指标有折扣指标和平均指标。折扣指标是指长期折扣〔把 t时刻的单位收益折合成0时刻的单位收益的β^t(β<1)倍〕期望总报酬。平均指标是指单位时间的平均期望报酬。采用折扣指标的马尔可夫决策过程称为折扣模型。业已证明：若一个策略是β折扣最优的，则初始时刻的决策规则所构成的平稳策略对同一β也是折扣最优的，而且它还可以分解为若干个确定性平稳策略，它们对同一β都是最优的。现在已有计算这种策略的算法。采用平均指标的马尔可夫决策过程称为平均模型。业已证明：当状态空间S 和行动集A(i)均为有限集时，对于平均指标存在最优的确定性平稳策略；当S和（或）A(i)不是有限的情况,必须增加条件，才有最优的确定性平稳策略。计算这种策略的算法也已研制出来。　　　　参考书目　　　R.A.Howard,Dynamic Programming and Markov Processes, MIT Press, Cambridge Mass., 1960. 　　说明：*补充资料仅用于学习参考，请勿用于其它任何用途。参考词条准马尔科夫决策过程逻辑马尔可夫决策过程关系马尔可夫决策过程分层马尔可夫决策过程

©2011 dictall.com