2022-03-20发表2022-03-22更新深度强化学习1 分钟读完 (大约125个字)

DRL - 02Proximal Policy Optimization (PPO)

policy gradient

on-policy and off-policy

add constraint

DRL - 02Proximal Policy Optimization (PPO)

http://example.com/2022/03/20/DRL - 02/

作者

Yang

发布于

2022-03-20

更新于

2022-03-22

许可协议

评论