How to?

285-0

Jun 24, 2026
技术学习285
1 Minutes
132 Words
flowchart TD
    PG["Vanilla Policy Gradient
[on-policy]"] -->|"添加 value_net V(s)"| AC AC["Actor-Critic
[on-policy]
·可使用 MC: Σ(γ^t r_t) - V(s)
·可使用单步 TD: r + γ*V(s+1) - V(s)
可使用 GAE"] PG -->|使用 mean_net + logstd| cont[支持连续动作,只需计算概率密度] AC -->|"1. 改为训练 Q(s, a),删除 actor 和 Policy-Gradient,直接使用最大Q的动作
2. 添加 ε-greedy 试探"| Q-learning["Q-learning
[discrete-only]
这玩意儿不 work"] Q-learning -->|"1. 添加 target network: 复制一份 Q2 目标网络每 10000 步同步一次
2. 使用离线 replay-buffer 存储大量 (s, a, nxt_s)"| DQN DQN --> Double-DQN

Utils

  1. https://rail.eecs.berkeley.edu/deeprlcourse/
Article title:285-0
Article author:Julyfun
Release time:Jun 24, 2026
Copyright 2026
Sitemap