1) equivalence of functions
报酬均一主义
2) average reward
平均报酬
1.
Aim To investigate the model free multi step average reward reinforcement learning algorithm.
目的 讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略。
2.
On the basis of analyzing and investigating the exist algorithms,and using the linear parameter estimation theory,a new class of average reward multi-step temporal-difference learning algorithms based on linear function approximations and recursive least s.
对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究。
3.
An average reward reinforcement learning algorithm for control Markov chains is presented.
目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略。
3) Remuneration justice
报酬正义
4) average rate of return
平均报酬率
5) investment recompense rate
投资平均报酬率
6) average reward criteria
平均报酬准则
补充资料:报酬
由于使用别人的劳动、物件等而付给别人的钱或实物:种花栽树,是我应尽的义务,不要~。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条