说明:双击或选中下面任意单词,将显示该词的音标、读音、翻译等;选中中文或多个词,将显示翻译。
您的位置:首页 -> 词典 -> 连续时间的序贯决策过程
1)  continuous-time sequential decision process
连续时间的序贯决策过程
2)  sequential decision process
序贯决策过程
3)  Continuous-time Markov Decision Processes
连续时间马尔可夫决策过程
1.
For a special Markov decision process based on the continuous-time Markov decision processes with the average criterion,a new set of conditions is proposed for both the optimality and constrained optimality for a controlled queuing system.
根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件。
4)  CTPOMDP
连续时间部分可观Markov决策过程
1.
An algorithm for estimating the policy gradient is presented for the performance optimization of continuous-time partially observable Markovian decision processes(CTPOMDPs).
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法。
5)  continuum theory of decision program
决策程序的连续带理论
6)  sequential multiple decision procedure(SMDP)
序贯多重决策过程
补充资料:序贯决策
      用于随机性或不确定性动态系统最优化的决策方法。序贯决策的特点是:①所研究的系统是动态的,即系统所处的状态与时间有关,可周期(或连续)地对它观察;②决策是序贯地进行的,即每个时刻根据所观察到的状态和以前状态的记录,从一组可行方案中选用一个最优方案(即作最优决策),使取决于状态的某个目标函数取最优值(极大或极小值);③系统下一步(或未来)可能出现的状态是随机的或不确定的。序贯决策的过程是:从初始状态开始,每个时刻作出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再作出新的最优决策,反复进行直至最后。系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:①系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。②系统下一步可能出现的状态的概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。
  

说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条