说明:双击或选中下面任意单词,将显示该词的音标、读音、翻译等;选中中文或多个词,将显示翻译。
您的位置:首页 -> 词典 -> 策略梯度算法
1)  policy-gradient algorithm
策略梯度算法
1.
On the basis of partially observable Markov decision processes,two finite-memory policy-gradient algorithms,that is,model-based GAMP algorithm and model-free IState-GPOMDP algorithm,were implemented,and employed in the simulation of a robot walking in a maze.
通过分析仿真结果,对这两种算法引入了基于观测的优化;并发现在所给报酬函数下,策略梯度算法中的步长参数也在一定程度上影响着优化策略的效率。
2)  policy-gradient approach
策略梯度优化算法
1.
A POMDP(partially observable Markov decision process)-based admission control model was proposed for distributed VOD admission control system,and the optimal admission policy was obtained by applying the policy-gradient approach through computer simulation.
为分布式视频点播(video on demand,VOD)接入控制建立了基于POMDP(部分可观Markov决策过程)的数学模型,应用策略梯度优化算法仿真求解模型的最优策略。
3)  policy gradient
策略梯度
1.
Theories, Algortihms and Applications of Policy Gradient Reinforcement Learning;
策略梯度增强学习的理论、算法及应用研究
2.
The adaptive heuristic critic(AHC) reinforcement learning frame is approximate of the value function and the policy function of Markov decision process(MDP),the stochastic MDPs can be converted to deterministic MDPs by the policy gradient reinforcement learning.
自适应启发评价(AHC)增强学习结构分别逼近马尔可夫决策过程的值函数和策略函数,策略梯度增强学习能够将随机不确定的马尔可夫决策过程转换为确定性的马尔可夫决策过程。
3.
Although policy gradient reinforcement learning (PGRL) has good convergence properties, the variance of policy gradient estimation in existing PGRL algorithms is usually large, which becomes a significant problem for policy gradient algorithms in theory and in practice.
尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点。
4)  gradsdient strategy
梯度策略
5)  policy algorithms
策略算法
6)  algorithm strategy
算法策略
补充资料:BP算法
分子式:
CAS号:

性质:又称逆推学习算法,简称BP算法,是1986年鲁梅哈特(D. E. Rumelhart)和麦克莱朗德(J. L. McClelland)提出来的。用样本数据训练人工神经网络(一种模仿人脑的信息处理系统),它自动地将实际输出值和期望值进行比较,得到误差信号,再根据误差信号从后(输出层)向前(输入层)逐层反传,调节各神经层神经元之间的连接权重,直至误差减至满足要求为止。反向传播算法的主要特征是中间层能对输出层反传过来的误差进行学习。这种算法不能保证训练期间实现全局误差最小,但可以实现局部误差最小。BP算法在图像处理、语音处理、优化等领域得到应用。

说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条