说明:双击或选中下面任意单词,将显示该词的音标、读音、翻译等;选中中文或多个词,将显示翻译。
您的位置:首页 -> 词典 -> 随机对策
1)  stochastic game
随机对策
1.
A local learning algorithm for multi-agent-based stochastic games is proposed in light of the fact that the individual performs local perception and interaction in group.
基于群体环境中个体agent局部感知和交互的生物原型,提出一种随机对策框架下的多agent局部学习算法。
2)  stochastic games
随机对策
1.
Q -learning from original single-agent framework is extended to non-cooperative multi-agent framework, and the theoretic framework of multi-agent learning is proposed under general-sum stochastic games with Nash equilibrium point as learning objective.
将 Q- learning从单智能体框架上扩展到非合作的多智能体框架上 ,建立了在一般和随机对策框架下的多智能体理论框架和学习算法 ,提出了以 Nash平衡点作为学习目标 。
3)  stochastic matrix game
随机矩阵对策
1.
In this paper,we introduce the stochastic matrix game,define optimal statege and game value ,state stationarity of game results and obtain some basic results.
在本文中我们首先引进了支付矩阵为随机变量的矩阵对策 ,定义了随机矩阵对策的最优策略和对策值 ,并提出了对策结果 (最优策略和对策值 )关于随机矩阵中各随机变量分布函数的稳定性 ,得到了一些基本结
4)  Stochastic differential game
随机微分对策
5)  stochastic cooperative game
随机合作对策
1.
This paper extends notions of superadditivity and convexity to stochastic cooperative games.
本文将凸性扩展到随机合作对策中,从而得到凸随机合作对策具有超可加性与非空的核心,且凸随机合作对策的核心满足Minkowski和与Minkowski差。
6)  nonzero-sum stochastic game
非零和随机对策
1.
Discrete time two-person nonzero-sum stochastic games with the discounted payoff criterion and a countable state space is studied,here the payoff functions might have neither upper nor lower bounds.
讨论了赔付函数可能既无上界又无下界的离散时间可数状态非零和随机对策的折扣模型。
补充资料:随机对策


随机对策
stochastic game

的双人零和随机对策.假定当任何平稳策略代入转移函数F(、、lx、,广‘一’)中{l寸Ma芦oB链的遍历性成、).,则已经记一明J一这样的对策和平稳最优策略的值存在.这些结果已经被推厂‘到对状态和初等策略数目无限制的情形和别的性能指标形式的情形.卜卜注】在1981年,J .F .Mertells和ANe犯na幻证明了兵有极限均值性能指标的任意随机对策的值的存在性1 AZ]. 关于使用折扣性能指标的随机对策的渐近理论,已经有大量的研究,见IAI]一IA3].随机对策啤以出印拓cgan祀;cT0xacm,ee脚盯pa] 一种动态对策(dy口amicg日1lles),这}!寸转移分布函数不依赖于对策的历史,即 F(x*}x、,了”),」一,x、_,、〔‘卜勺= “F(义*}x*_1,、(“一,)).随机对策首先是由L.5.Shapley(〔l})定义的,他研究了带实性能指标的双人零和随机对策(SllaPle,对策(Shapley games)).在ShaP]ey对策中,对策状态集X和局中人纯策略集都是有限的,并且在任何一步对于由局中人所作出的任何一种两择一选择,都存在一中断该对策的非零概率.由于这一条件,对策在有限多步后中断的概率为1,夕卜且每个局中人的性能指标的数学期望均为有限.任何这样的对策都有一个值,并目.两个局中人都有平稳最优策略(stationary oPtilllalstral卿巴),即按这些策略,局中人在对策过程的每一阶段选择的初等策略,仅取决于目前的状态.Shaplev还发现了一种办法,据此有可能既找到对策的值,又找到最优策略. 对另一种随机对策也已进行了研究,与Shapley对策的区别在于可以是无穷的;这样的对策称为具有极限均值性能指标的随机对策(stochastic,mes with hmtingtl飞浅In Pay Off).即具有 “l(p)一,12(p)一。,二SUp溶l青”(·*,一)
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条