2) supercooled overpraise
过度夸奖;过奖
3) Process reward
过程奖赏
1.
A reinforcement learning algorithm (PS-process) based on process reward and prioritized sweeping is presented as noise resolution strategy.
提出了一种基于过程奖赏和优先扫除(PS-process)的强化学习算法作为噪声消解策略。
4) You flatter me immensely
你过奖啦
6) Oh, I am flattered .
哦,过奖了。
补充资料:奖赏
奖赏
reward
奖赏(reward)亦称“正强化物”.指在反应后出现的能够增强那一反应的事物。学习心理学的研究表明,奖赏会使机体产生对奖赏的期待,从而促使人或动物去进行某些活动。动物实验中经常用食物等能满足生理需要的事物来作为奖赏。对人的奖赏可分为精神奖赏与物质奖赏。运用奖赏来调节人的行为时可以对做某个反应进行奖赏,鼓励人去做某事;也可以对不做某个反应进行奖赏,防止人做某事,这是一种以赏代罚的方法,适合于消除一些无法强行禁止的错误。使用奖赏时要注意及时和强度适当。若不及时则其效果明显降低,甚至于没有影响;强度过高或过低会造成强化的对比效应。 (周国帕撰戚立夫审)
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条