31、【加课】强化学习【新增】 - 爱网盘 - 网盘资源搜索,网盘搜索神器,夸克网盘云盘下载
- file:49:代码实战_A3C_定义AC网络结构_定义worker拉取参数和更新全局网络参数的逻辑.mp4
- file:50:代码实战_A3C_结合流程图分三点总结前面讲的代码.mp4
- file:45:Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4
- file:40:AdvantageActorCritic_共享参数和修改reward技巧.mp4
- file:44:A3C架构和训练流程.mp4
- file:46:代码实战_A3C_讲解Coordinator调度多线程运算.mp4
- file:47:代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性.mp4
- file:43:代码实战_详解Critic网络构建及训练.mp4
- file:52:代码实战_A3C_讲解线程中worker和GlobalNet交互_代码运行效果展示.mp4
- file:39:ActorCritic原理_把PG和QLearning结合起来.mp4
- file:48:代码实战_A3C_增加actor探索性用到熵_定义worker正太分布抽样和求梯度的逻辑.mp4
- file:5:蒙特卡洛和时序差分估算状态V值.mp4
- file:1:强化学习通过智能体与环境交互进行学习.mp4
- file:12:代码实战Sarsa_Agent选择行为和训练模型.mp4
- file:3:详解Q值和V值以及它们之间关系.mp4
- file:7:理解Q-table_创建maze交互环境.mp4
- file:8:代码实战Q-Learning_Agent和Env整体交互.mp4
- file:6:SARSA算法和Q-learning算法.mp4
- file:10:代码实战Q-Learning智能体训练模型.mp4
- file:2:引入马尔科夫链和价值评估的Q值与V值.mp4
- file:53:DDPG解决DQN不能输出连续型动作的问题_DDPG如何训练Actor和Critic.mp4
- file:66:代码实战_DPPO_创建一个PPO和多个Worker_创建多线程.mp4
- file:58:PPO_强调AC如何输出连续型动作_区分On-Policy与Off-Policy.mp4
- file:56:代码实战_DDPG_与环境之间的互动_AC训练调整参数_效果展示.mp4
- file:59:PPO_通过重要性采样使得PPO可以做Off-Policy学习.mp4
- file:62:代码实战_PPO与环境整体交互_Actor与Critic网络构建.mp4
- file:61:PPO_PPO1、TRPO、PPO2三种不同的方式解决两个分布不同的问题.mp4
- file:57:TD3_使用DoubleNetwork优化DDPG.mp4
- file:65:DPPO分布式PPO.mp4
- file:63:代码实战_定义PPO1和PPO2不同版本Actor的Loss计算逻辑.mp4
- file:60:PPO_重要性采样的问题_期望矫正但是方差还是不同带来的问题.mp4
- file:54:代码实战_DDPG_构建Actor和Critic四个网络_定义Critic求loss和求梯度的逻辑.mp4
- file:55:代码实战_DDPG_Critic网络构建_Actor网络链式求导.mp4
- file:64:代码实战_剖析PPO代码中如何体现Off-Policy的学习方式_效果展示.mp4
- file:36:代码实战_策略梯度PG选择行为和参数训练.mp4
- file:32:策略梯度PG_总结整体流程_对比交叉熵损失函数求导.mp4
- file:37:策略梯度PG_对TotalReward进行均值归一化.mp4
- file:30:策略梯度PG_明确目标函数和导函数.mp4
- file:29:策略梯度PG_对比基于值和基于策略网络的区别.mp4
- file:33:策略梯度PG_讲解CartPole环境.mp4
- file:38:策略梯度PG_同一个回合中不同的action回溯不同的TotalReward_代码实战.mp4
- folder:31、【加课】强化学习【新增】
- folder:章节4:ActorCritic(A3C)
- folder:章节1:Q-Learning与SARSA算法
- folder:章节5:DDPG、PPO、DPPO算法
- folder:章节3:PolicyGradient策略梯度
- folder:章节2:DeepQ-LearningNetwork
分享时间 | 2025-03-25 |
---|---|
入库时间 | 2025-03-25 |
状态检测 | 有效 |
资源类型 | QUARK |
分享用户 | 荷* |
资源有问题?点此举报