1) temporal difference(TD) learning
时差法(TD)
2) Finite difference time domain (FD TD) method
时域有限差分(FD-TD)法
3) TD method
TD法
1.
Study on Surface-Strengthening of TD Method on Cold-Work Die;
TD法盐浴渗钒在冷作模表面强化中的应用研究
2.
Since TD method(Toyota Diffusion or Thermal Diffusion)was invented by Toyota Central Graduate School of Japanese in the late 1960s ,this process has been widely used on a variety of parts and moulds for it s outstanding effect on surface strengthening.
TD法自1968年由日本丰田中央研究所发明以来,在机械零件及模具处理方面得到了广泛应用,是一种效果很好的表面强化方法;尤其在冷作模具方面,效果极为显著,应用得当可以大幅度提高冷作模具的使用寿命。
4) TD-DFT method
TD-DFT方法
5) TD method
TD方法
6) TD algorithm
TD算法
1.
The main reinforcement learning algorithm including TD algorithm, Q-learning and R-learning are roundly in- troduced.
本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题。
补充资料:E·庞巴维克时差利息论
E·庞巴维克时差利息论
觉是十分模糊的,我们习惯于低估未来的欢乐和痛苦,低估未来的需求与供给。所以如此,则由于:①认识的缺陷。对自己未来的需要考虑不完善,因而对那些满足将来需要的物品就被低估了。②意志薄弱。人们在选择现在与未来的享受时,偏重现在的享受,结果往往变更预定的计划,把计划用于将来使用的钱财提前花费。③人生的短促和生命周期的不确定。使人们在选择现在和未来的物品时,总是轻看将来的物品。 (3)现在物品较将来物品具有技术上的优越性。庞巴维克说:“现在物品在技术上一般是能优先满足人类需要的手段,因此它比未来物品具有更大的边际效用”(庞巴维克《资本实证论》,商务印书馆1983年版第2科页)。为何现在的物品在技术上有优越性?按庞巴维克的观点,这主要在于“迂回生产”是有技术优越性的。所谓迁回生产是指先用土地、劳动力等基本要素生产出中间产品,然后再用中间产品生产出消费品的间接生产,它相对用基本生产要素直接生产消费品的直接生产而言。例如,荒岛上鲁滨逊徒手捕鱼,每日捕鱼五斤,是直接生产。若他先制舟结网,然后用网捕鱼,虽然会多费一定时间,但却可每日捕鱼五十斤。这便是迂回生产,此例表明:①用网捕鱼的迂回生产,比直接生产能获得夏多消费品,使用工具的迁回生产具有技术上的优越性。②以网捕鱼的迂回生产方法较直接生产要花费更多的时间,迂回生产过程越长,花费的时间愈长。当然,并不是无限制的延长迂回时间都有利。庞巴维克设想了一个平均生产时期来代表社会生产过程的长短,认为平均生产时期愈长,产品增长愈多。因此,将现在物品与未来物品相比较,现在的物品有利于使资本家延长平均生产时期,得到迁回生产的好处,而且现在物品比将来财货具有技术上的优越性。【E.庞巴维克时差利息论】关于利息来自于价值时差的一种理论。这一理论的倡导者是奥地利经济学家庞巴维克。他认为:在现在物品和未来物品的价值之间存在差别,这种价值上的差别是一切资本利息的来源。一切利息都来源于同种和同量物品价值上的差别,而同种和同量物品的价值上的差别又是由二者在时间上的差别造成。这是因为: (l)不同时期的需要与供应之间存在差别。庞巴维克说,现在物品和未来物品之间价值上的差别,其首要原因是由于需要和供应之间的情况,在现在和未来是不同的。现在物品的价值是按照现在的需要与现在物品供应的互相关系来评价的,未来物品的价值则是按照将来的需要与未来物品供应的互相关系来评价的。通常人们都对现在的货物评价高而对未来的货物评价。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条