1) reward function
回报函数
1.
Survey of apprenticeship learning based on reward function approximating;
基于回报函数逼近的学徒学习综述
2.
Survey of apprenticeship learning based on reward function learning
回报函数学习的学徒学习综述
3.
During the learning process,the reward function is controlled automatically to earn the optimal policy.
针对机器人足球比赛的多智能体环境下智能体的训练问题,提出了一种将模糊控制与Q-Learning相结合的学习方法,并在学习过程中自动调节回报函数以获得最优策略,此方法的有效性在中型组的仿真平台上得到了验证,并取得了较好效果,还可将它改进应用于其他多智体环境。
2) return function
回报函数
1.
By using the optimal control policy of stochastic analysis, the optimal control policies and the corresponding maximal return function are obtained for different parameters.
考虑一类带有分红过程和借贷过程的比例再保险模型,为推广其应用,将其费用函数进行了推广,利用随机分析中的最佳控制理论,针对不同的参数得出了不同情形下的最佳控制策略及相应的最大回报函数。
2.
By using the optimal control policy of stochastic analysis, we obtain its optimal control polices and the corresponding maximal return functions for different parameters.
利用随机分析中的最优控制理论,通过数学分析,针对不同的参数得出了不同情形下最优控制策略及相应的最大回报函数。
3) optimal return function
最优回报函数
1.
By relying on stochastic calculus method,we give a sufficient theorem for optimal return function.
研究了一类奇异随机收获模型的最优收获控制策略及相应的最优回报函数问题。
2.
A sufficient con- dition for optimal return is obtained,and the explicit form of optimal return function,the corrresponding impulse and regular control strategies are also given.
首次在比例再保险模型中引入脉冲控制过程,为获得最优回报函数,不但给出了该函数所应满足的充分性定理,而且得出了该函数的具体解析式及相应的最优脉冲与正则控制策略。
3.
By utilizing both stochastic calculus and the classical impulse control theory,we give a set of sufficient conditions for its solution in terms of optimal return function.
利用随机积分及脉冲控制理论,我们不但给出了最优回报函数应满足的充分性条件,而且在一定条件下得出了其显解及相应的最优控制策略。
4) heuristic reward function
启发式回报函数
5) compensation function
报酬函数
1.
With the methods of the historical analysis,this paper analyses the present incentive and restrictive mechanism--yearly salary,stock holding and profit sharing system,and establishes a modified incentive and restrictive compensation function.
针对我国上市公司激励约束机制的发展明显滞后于经理层治理的发展问题,利用历史方法,分析了现有激励约束机制——年薪制、持股制和利润分享制的作用,构建了改进的激励约束性报酬函数。
6) bidding price fuction
报价函数
补充资料:高斯函数模拟斯莱特函数
尽管斯莱特函数作为基函数在原子和分子的自洽场(SCF)计算中表现良好,但在较大分子的SCF计算中,多中心双电子积分计算极为复杂和耗时。使用高斯函数(GTO)则可使计算大大简化,但高斯函数远不如斯莱特函数(STO)更接近原子轨道的真实图象。为了兼具两者之优点,避两者之短,考虑到高斯函数是完备函数集合,可将STO向GTO展开:
式中X(ζS,A,nS,l,m)定义为在核A上,轨道指数为ζS,量子数为nS、l、m 的STO;g是GTO:
其变量与STO有相似的定义;Ngi是归一化常数:
rA是空间点相对于核A的距离;ci是组合系数;K是用以模拟STO的GTO个数(理论上,K→∞,但实践证明K只要取几个,便有很好的精确度)。
ci和ζ在固定K值下, 通过对原子或分子的 SCF能量计算加以优化。先优化出 ζS=1 时固定K值的ci和(i=1,2,...,K),然后利用标度关系式便可得出ζS的STO展开式中每一个GTO的轨道指数,而且,ci不依赖于ζS,因而ζS=1时的展开系数就是具有任意ζS的STO的展开系数。对不同展开长度下的展开系数和 GTO轨道指数已有表可查。
式中X(ζS,A,nS,l,m)定义为在核A上,轨道指数为ζS,量子数为nS、l、m 的STO;g是GTO:
其变量与STO有相似的定义;Ngi是归一化常数:
rA是空间点相对于核A的距离;ci是组合系数;K是用以模拟STO的GTO个数(理论上,K→∞,但实践证明K只要取几个,便有很好的精确度)。
ci和ζ在固定K值下, 通过对原子或分子的 SCF能量计算加以优化。先优化出 ζS=1 时固定K值的ci和(i=1,2,...,K),然后利用标度关系式便可得出ζS的STO展开式中每一个GTO的轨道指数,而且,ci不依赖于ζS,因而ζS=1时的展开系数就是具有任意ζS的STO的展开系数。对不同展开长度下的展开系数和 GTO轨道指数已有表可查。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条