更新时间:2023-07-26 17:17:35
封面
版权信息
作者介绍
内容简介
前言
1 分布式基础
第1章 分布式机器学习
1.1 机器学习概念
1.2 机器学习的特点
1.3 分布式训练的必要性
1.4 分布式机器学习研究领域
1.5 从模型角度看如何并行
1.6 从训练并发角度看如何并行
1.7 分布式机器学习编程接口
1.8 PyTorch分布式
1.9 总结
第2章 集合通信
2.1 通信模式
2.2 点对点通信
2.3 集合通信
2.4 MPI AllReduce
2.5 Ring All-Reduce
第3章 参数服务器之PS-Lite
3.1 参数服务器
3.2 基础模块Postoffice
3.3 通信模块Van
3.4 代理人Customer
3.5 应用节点实现
2 数据并行
第4章 PyTorch DataParallel
4.1 综述
4.2 示例
4.3 定义
4.4 前向传播
4.5 计算损失
4.6 反向传播
4.7 总结
第5章 PyTorch DDP的基础架构
5.1 DDP总述
5.2 设计理念
5.3 基础概念
5.4 架构和初始化
第6章 PyTorch DDP的动态逻辑
6.1 Reducer类
6.2 前向/反向传播
第7章 Horovod
7.1 从使用者角度切入
7.2 horovodrun
7.3 网络基础和Driver
7.4 DistributedOptimizer
7.5 融合框架
7.6 后台线程架构
3 流水线并行
第8章 GPipe
8.1 流水线基本实现
8.2 梯度累积
8.3 Checkpointing
第9章 PyTorch流水线并行
9.1 如何划分模型
9.2 切分数据和Runtime系统
9.3 前向计算
9.4 计算依赖
9.5 并行计算
第10章 PipeDream之基础架构
10.1 总体思路
10.2 profile阶段
10.3 计算分区阶段
10.4 转换模型阶段
第11章 PipeDream之动态逻辑
11.1 Runtime引擎
11.2 通信模块
11.3 1F1B策略
4 模型并行
第12章 Megatron
12.1 设计思路
12.2 模型并行实现
12.3 如何设置各种并行
12.4 Pipedream的流水线刷新
第13章 PyTorch如何实现模型并行
13.1 PyTorch模型并行
13.2 分布式自动求导之设计
13.3 RPC基础
13.4 上下文相关
13.5 如何切入引擎
13.6 自动求导引擎
第14章 分布式优化器
14.1 原生优化器
14.2 DP的优化器
14.3 DDP的优化器
14.4 Horovod的优化器
14.5 模型并行的分布式问题
14.6 PyTorch分布式优化器
14.7 PipeDream分布式优化器
5 TensorFlow分布式
第15章 分布式运行环境之静态架构
15.1 总体架构
15.2 Server
15.3 Master的静态逻辑
15.4 Worker的静态逻辑
第16章 分布式运行环境之动态逻辑