applications
Universe: https://openai.com/blog/universe/
difficulties of reinforcement learning
reward delay 一些没有奖励的动作在当前看起来没有用,但对未来会产生影响,帮助在未来得到奖励。
agent’s actions affect the subsequent data it recevives,agent 需要去探索,不管是好的行为还是坏的。
outline
找function 的三大步骤
DRL
neural network as actor
input: vector、matrix,eg: pixels
output: action 采取行动的几率,stochastic
goodness of function
supervised learning vs DRL
评估observation
机器学到的行为会影响下一步的发展,所有的action 当成整体看待
env、reward function不能控制,只能调整actor的行为
评估critic:
Monre-Carlo:
Temporal defference:
actor 如果⽆法穷举则会爆炸,采用PDPG
类似GAN: