flowchart TD
PG["Vanilla Policy Gradient
[on-policy]"] -->|"添加 value_net V(s)"| AC
AC["Actor-Critic
[on-policy]
·可使用 MC: Σ(γ^t r_t) - V(s)
·可使用单步 TD: r + γ*V(s+1) - V(s)
可使用 GAE"]
PG -->|使用 mean_net + logstd| cont[支持连续动作,只需计算概率密度]
AC -->|"1. 改为训练 Q(s, a),删除 actor 和 Policy-Gradient,直接使用最大Q的动作
2. 添加 ε-greedy 试探"| Q-learning["Q-learning
[discrete-only]
这玩意儿不 work"]
Q-learning -->|"1. 添加 target network: 复制一份 Q2 目标网络每 10000 步同步一次
2. 使用离线 replay-buffer 存储大量 (s, a, nxt_s)"| DQN
DQN --> Double-DQN
Article title:285-0
Article author:Julyfun
Release time:Jun 24, 2026
Original link:https://how-to.fun/blog/技术学习/285/285-0
Copyright 2026
Sitemap