1) Adaptive Heuristic Critic Method
自适应启发评价方法
2) adaptive heuristic critic
自适应启发评价
1.
The adaptive heuristic critic(AHC) reinforcement learning frame is approximate of the value function and the policy function of Markov decision process(MDP),the stochastic MDPs can be converted to deterministic MDPs by the policy gradient reinforcement learning.
自适应启发评价(AHC)增强学习结构分别逼近马尔可夫决策过程的值函数和策略函数,策略梯度增强学习能够将随机不确定的马尔可夫决策过程转换为确定性的马尔可夫决策过程。
2.
First,the main algorithms,temporal difference, \%Q \%learning and adaptive heuristic critic,are roundly introduced.
首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ;最后讨论了强化学习目前所要研究的问
4) adaptive heuristic critic algorithm
自适应评价算法
5) adaptation algorithm
自适应启发式算法
6) action-dependant adaptive critic designs(ADACD)
执行依赖自适应评价方法(ADACD)
补充资料:自适应自整定调节
分子式:
CAS号:
性质:在调节系统中,对象的动态特性往往是变化的,如果变化不大或调节的质量要求不高时,可以采用固定规律的调节器,假若变化大,质量要求又高时,需要选择可变规律调节器。调节器参数的改变是直接按照对象特性的变化进行的,叫作自适应调节。对象的识别和调节器的规律的计算都用一个计算装置进行,就叫自适应自整定调节,或简称自整定调节。
CAS号:
性质:在调节系统中,对象的动态特性往往是变化的,如果变化不大或调节的质量要求不高时,可以采用固定规律的调节器,假若变化大,质量要求又高时,需要选择可变规律调节器。调节器参数的改变是直接按照对象特性的变化进行的,叫作自适应调节。对象的识别和调节器的规律的计算都用一个计算装置进行,就叫自适应自整定调节,或简称自整定调节。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条