326| 0
|
[AI/大数据] 强化学习实战系列(2020新版)|唐宇迪 |
课程简介: 强化学习系列课程主要包括经典算法原理讲解与案例实战两大部分。通俗讲解当下主流强化学习算法思想,结合实例解读算法整理应用流程并结合案例展开代码实战。整体风格通俗易懂,适合准备入门强化学习并进阶提升的同学们。 课程目录: 第1章强化学习简介及其应用(39分钟7节) 1-1课程介绍[02:54] 1-2一张图通俗解释强化学习[04:47] 1-3强化学习的指导依据[07:07] 1-4强化学习AI游戏DEMO[04:48] 1-5应用领域简介[06:28] 1-6强化学习工作流程[05:48] 1-7计算机眼中的状态与行为[07:25] 第2章PPO算法与公式推导(1小时11分钟8节) 2-1基本情况介绍[11:17] 2-2与环境交互得到所需数据[08:30] 2-3要完成的目标分析[10:40] 2-4策略梯度推导[09:01] 2-5baseline方法[06:10] 2-6OnPolicy与OffPolicy策略[07:44] 2-7importance sampling的作用[08:31] 2-8PPO算法整体思路解析[09:19] 第3章策略梯度实战-月球登陆器训练实例(56分钟6节) 3-1Critic的作用与效果[10:39] 3-2PPO2版本公式解读[11:45] 3-3参数与网络结构定义[08:04] 3-4得到动作结果[07:17] 3-5奖励获得与计算[08:08] 3-6参数迭代与更新[11:03] 第4章Q-learning算法(39分钟5节) 4-1算法原理通俗解读[07:11] 4-2目标函数与公式解析[10:07] 4-3Qlearning算法实例解读[07:45] 4-4Q值迭代求解[08:59] 4-5DQN简介[05:07] 第5章DQN算法实例演示(25分钟4节) 5-1整体任务流程演示[05:21] 5-2探索与action获取[06:58] 5-3计算target值[05:17] 5-4训练与更新[08:12] 第6章DQN改进与应用技巧(33分钟5节) 6-1DoubleDqn要解决的问题[06:47] 6-2DuelingDqn改进方法[06:26] 6-3Dueling整体网络架构分析[08:27] 6-4MultiSetp策略[03:45] 6-5连续动作处理方法[08:23] 第7章Actor-Critic算法分析(A3C)(34分钟5节) 7-1AC算法回顾与知识点总结[07:18] 7-2优势函数解读与分析[07:12] 7-3计算流程实例[05:50] 7-4A3C整体架构分析[06:01] 7-5损失函数整理[08:32] 第8章A3C算法玩转超级马里奥(48分钟6节) 8-1整体流程与环境配置[05:38] 8-2启动游戏环境[06:59] 8-3初始化局部模型并加载参数[08:05] 8-4要计算的指标回顾[09:01] 8-5与环境交互得到训练数据[09:31] 8-6训练网络模型[09:39] 第9章算法补充-卷积神经网络原理与参数解读(1小时25分钟12节) 9-1卷积神经网络应用领域[07:24] 9-2卷积的作用[09:23] 9-3卷积特征值计算方法[08:07] 9-4得到特征图表示[06:58] 9-5步长与卷积核大小对结果的影响[08:11] 9-6边缘填充方法[06:30] 9-7特征图尺寸计算与参数共享[07:02] 9-8池化层的作用[05:38] 9-9整体网络架构[06:20] 9-10VGG网络架构[06:16] 9-11残差网络Resnet[07:41] 9-12感受野的作用[05:46] 第10章基础补充-PyTorch框架基本处理操作(1小时8分钟8节) 10-1PyTorch框架发展趋势简介[08:25] 10-2框架安装方法(CPU与GPU版本)[05:13] 10-3PyTorch基本操作简介[09:25] 10-4自动求导机制[10:59] 10-5线性回归DEMO-数据与参数配置[08:56] 10-6线性回归DEMO-训练回归模型[10:08] 10-7常见tensor格式[07:10] 10-8Hub模块简介[08:25] 第11章基础补充-PyTorch图像识别实例(2小时4分钟16节) 11-1卷积网络参数定义[07:21] 11-2网络流程解读[07:26] 11-3Vision模块功能解读[05:10] 11-4分类任务数据集定义与配置[06:27] 11-5图像增强的作用[04:51] 11-6数据预处理与数据增强模块[09:25] 11-7Batch数据制作[08:37] 11-8迁移学习的目标[05:31] 11-9迁移学习策略[07:11] 11-10加载训练好的网络模型[09:54] 11-11优化器模块配置[05:14] 11-12实现训练模块[08:15] 11-13训练结果与模型保存[09:31] 11-14加载模型对测试数据进行预测[09:10] 11-15额外补充-Resnet论文解读[11:47] 11-16额外补充-Resnet网络架构解读开始学习
购买主题
本主题需向作者支付 30 学币 才能浏览
| |
学IT吧 www.xueit8.com X3.4
Copyright © 2001-2021, Tencent Cloud.