1) Average award
平均奖
2) average payoff
平均奖赏
1.
New on policy modeless average payoff reinforcement learning algorithms are derived as stochastic approximation methods for solving the system of equations in average payoff Markov decision processes.
本文以随机逼近的形式 ,提出了一些用于求解平均奖赏 Markov决策过程系统方程的在策略无模型激励学习算法。
3) average merit payment
平均劳绩奖赏
4) average reward model
平均奖励优化模型
补充资料:平均
①一致;统一:平均如一|天下平均,合为一家。②均匀;无轻重或多少之分:平均分配|平均主义。③将总数按份儿均匀计算:平均数|平均成绩|平均工资。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条