说明:双击或选中下面任意单词,将显示该词的音标、读音、翻译等;选中中文或多个词,将显示翻译。
您的位置:首页 -> 词典 -> 马尔科夫决策过程
1)  Markov decision process
马尔科夫决策过程
1.
The problem is modeled as a Markov decision process (MDP),which allows for the computation of the utility of actions to be based on the utilities of consequential future states.
问题被描述为一个马尔科夫决策过程MDP(Markov decisionprocess),该过程能通过下一次所有随机状态的总期望效用值计算当前行为的效用。
2.
The article explores the stochastic demand IRP in Retailer System((R-system),)and presents a separation heuristic algorithm based on Markov Decision Process(MDP) and modified C-W(algorithm.
本文以零售商系统下随机需求的IRP为研究对象,提出了一种基于马尔科夫决策过程与修正的C-W节约算法的启发式分解算法,并给出了相应的数值算例。
2)  Markov Decision Processes
马尔科夫决策过程
3)  semi Markov decision process
准马尔科夫决策过程
1.
The optimal control problem was formulated as an undiscounted semi Markov decision process that maximizes the system throughput.
该系统最优控制问题被规划为无限期间系统平均输出为最大的准马尔科夫决策过程,并以实际的柔性制造系统为例,通过计算,给出系统重组后不同构成时的最优工件运送策略,使系统在运行过程中可获得最佳性能。
4)  Markov Decision Processes (MDP)
马尔科夫决策过程(MDP)
5)  POMDP
部分可观察马尔科夫决策过程
1.
This thesis developed a dynamic spectrum access algorithm under the framework of POMDP (Partially Observable Markov Decision Process).
本文将在部分可观察马尔科夫决策过程的框架下研究认知无线电中的动态频谱接入算法。
6)  Markov decision process
马尔可夫决策过程
1.
IT Project Planning Method Based on Markov Decision Process;
基于马尔可夫决策过程的IT项目进度计划方法
2.
In this paper,a reasonable simplified WTA problem was solved via Markov decision process theory.
讨论了在合理简化条件下的分配过程,先把对目标群的射击效能作为目标函数制定决策,可将目标分配决策化成一个马尔可夫决策过程,通过策略迭代算法得到最优分配策略从而实现系统效益的最大化。
3.
The decision model of agent was described with Markov decision process (MDP).
为此,提出了具有自主决策功能的机动单元智能体的结构模型,它由感知、威胁预测、决策、学习和执行等部分组成;建立了用于威胁预测的神经网络模型,并将智能体的决策描述为马尔可夫决策过程(MDP)。
补充资料:马尔可夫决策过程
      基于马尔可夫过程理论的随机动态系统的最优决策过程,英文缩写 MDP。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物,故又称马尔可夫型随机动态规划,属于运筹学中数学规划的一个分支。马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统,序贯地作出决策。即根据每个时刻观察到的状态,从可用的行动集合中选用一个行动作出决策,系统下一步(未来)的状态是随机的,并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态,再作新的决策,依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形,在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制,其决策变量就是控制变量。
  
  发展概况  50年代R.贝尔曼研究动态规划时和L.S.沙普利研究随机对策时已出现马尔可夫决策过程的基本思想。R.A.霍华德(1960)和D.布莱克韦尔(1962)等人的研究工作奠定了马尔可夫决策过程的理论基础。1965年,布莱克韦尔关于一般状态空间的研究和E.B.丁金关于非时齐(非时间平稳性)的研究,推动了这一理论的发展。1960年以来,马尔可夫决策过程理论得到迅速发展,应用领域不断扩大。凡是以马尔可夫过程作为数学模型的问题,只要能引入决策和效用结构,均可应用这种理论。
  
  数学描述  周期地进行观察的马尔可夫决策过程可用如下五元组来描述:{S,(A(i),i∈S,q,γ,V},其中S 为系统的状态空间(见状态空间法);A(i)为状态i(i∈S)的可用行动(措施,控制)集;q为时齐的马尔可夫转移律族,族的参数是可用的行动; γ是定义在Γ(Г呏{(i,ɑ):a∈A(i),i∈S}上的单值实函数;若观察到的状态为i,选用行动a,则下一步转移到状态 j的概率为q(j│i,ɑ),而且获得报酬γ(j,ɑ),它们均与系统的历史无关;V是衡量策略优劣的指标(准则)。
  
  策略  策略是提供给决策者在各个时刻选取行动的规则,记作 π=(π0,π1,π2,..., πn,πn+1...),其中πn是时刻 n选取行动的规则。从理论上来说,为了在大范围寻求最优策略πn,最好根据时刻 n以前的历史,甚至是随机地选择最优策略。但为了便于应用,常采用既不依赖于历史、又不依赖于时间的策略,甚至可以采用确定性平稳策略。
  
  指标  衡量策略优劣的常用指标有折扣指标和平均指标。折扣指标是指长期折扣〔把 t时刻的单位收益折合成0时刻的单位收益的βt(β<1)倍〕期望总报酬。平均指标是指单位时间的平均期望报酬。采用折扣指标的马尔可夫决策过程称为折扣模型。业已证明:若一个策略是β折扣最优的,则初始时刻的决策规则所构成的平稳策略对同一β也是折扣最优的,而且它还可以分解为若干个确定性平稳策略,它们对同一β都是最优的。现在已有计算这种策略的算法。采用平均指标的马尔可夫决策过程称为平均模型。业已证明:当状态空间S 和行动集A(i)均为有限集时,对于平均指标存在最优的确定性平稳策略;当S和(或)A(i)不是有限的情况,必须增加条件,才有最优的确定性平稳策略。计算这种策略的算法也已研制出来。
  
  参考书目
   R.A.Howard,Dynamic Programming and Markov Processes, MIT Press, Cambridge Mass., 1960.
  

说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条