2) nonzero-sum stochastic d ifferential games
非零和随机微分对策
3) stochastic games
随机对策
1.
Q -learning from original single-agent framework is extended to non-cooperative multi-agent framework, and the theoretic framework of multi-agent learning is proposed under general-sum stochastic games with Nash equilibrium point as learning objective.
将 Q- learning从单智能体框架上扩展到非合作的多智能体框架上 ,建立了在一般和随机对策框架下的多智能体理论框架和学习算法 ,提出了以 Nash平衡点作为学习目标 。
4) stochastic game
随机对策
1.
A local learning algorithm for multi-agent-based stochastic games is proposed in light of the fact that the individual performs local perception and interaction in group.
基于群体环境中个体agent局部感知和交互的生物原型,提出一种随机对策框架下的多agent局部学习算法。
5) Differential Games
微分对策
1.
Missile optimal penetration method based on differential games;
基于微分对策的导弹最优突防策略
2.
Collision alerting algorithm based on differential games for independent approaches to parallel runways;
基于微分对策的平行跑道独立运行冲突报警算法
3.
Collision problem of two mobile robots using differential games;
机器人碰撞问题中的微分对策方法
6) differential game
微分对策
1.
Trading system model analysis of differential game robot of stock market in China;
证券交易系统的微分对策机器人模型分析
2.
The sufficient condition for the optimality of a quantitative differential games;
时间定量微分对策最优性的充分条件
3.
The sufficient conditions for the optimal solution of a quantitative differential game;
一类定量微分对策的最优性判别准则
补充资料:随机对策
随机对策
stochastic game
的双人零和随机对策.假定当任何平稳策略代入转移函数F(、、lx、,广‘一’)中{l寸Ma芦oB链的遍历性成、).,则已经记一明J一这样的对策和平稳最优策略的值存在.这些结果已经被推厂‘到对状态和初等策略数目无限制的情形和别的性能指标形式的情形.卜卜注】在1981年,J .F .Mertells和ANe犯na幻证明了兵有极限均值性能指标的任意随机对策的值的存在性1 AZ]. 关于使用折扣性能指标的随机对策的渐近理论,已经有大量的研究,见IAI]一IA3].随机对策啤以出印拓cgan祀;cT0xacm,ee脚盯pa] 一种动态对策(dy口amicg日1lles),这}!寸转移分布函数不依赖于对策的历史,即 F(x*}x、,了”),」一,x、_,、〔‘卜勺= “F(义*}x*_1,、(“一,)).随机对策首先是由L.5.Shapley(〔l})定义的,他研究了带实性能指标的双人零和随机对策(SllaPle,对策(Shapley games)).在ShaP]ey对策中,对策状态集X和局中人纯策略集都是有限的,并且在任何一步对于由局中人所作出的任何一种两择一选择,都存在一中断该对策的非零概率.由于这一条件,对策在有限多步后中断的概率为1,夕卜且每个局中人的性能指标的数学期望均为有限.任何这样的对策都有一个值,并目.两个局中人都有平稳最优策略(stationary oPtilllalstral卿巴),即按这些策略,局中人在对策过程的每一阶段选择的初等策略,仅取决于目前的状态.Shaplev还发现了一种办法,据此有可能既找到对策的值,又找到最优策略. 对另一种随机对策也已进行了研究,与Shapley对策的区别在于可以是无穷的;这样的对策称为具有极限均值性能指标的随机对策(stochastic,mes with hmtingtl飞浅In Pay Off).即具有 “l(p)一,12(p)一。,二SUp溶l青”(·*,一)
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条