首页 > 资讯 > 数据库 >TP DP PP 并行训练方法介绍

155

分享到

TP DP PP 并行训练方法介绍

python 语言模型算法 2023-08-23 18:08:46 155人浏览独家记忆

摘要

这里写目录标题张量并行TP流水线并行 PPnaive模型并行GPipePipeDream 数据并行DPFSDP 张量并行TP 挖坑流水线并行 PP 经典的流水线并行范式有Google推出的Gpipe，和微软推出

这里写目录标题

张量并行TP
流水线并行 PP
数据并行DP
- FSDP

张量并行TP

挖坑

流水线并行 PP

经典的流水线并行范式有Google推出的Gpipe，和微软推出的PipeDream。两者的推出时间都在2019年左右，大体设计框架一致。主要差别为：在梯度更新上，Gpipe是同步的，PipeDream是异步的。异步方法更进一步降低了GPU的空转时间比。虽然PipeDream设计更精妙些，但是Gpipe因为其“够用”和浅显易懂，更受大众欢迎（torch的pp接口就基于Gpipe）。因此本文以Gpipe作为流水线并行的范例进行介绍。https://zhuanlan.zhihu.com/p/613196255

gpipe论文 Https://arxiv.org/pdf/1811.06965.pdf

naive模型并行

在这里插入图片描述
图片来自https://https://blog.csdn.net/www_z_dd/article/details/arxiv.org/pdf/1806.03377.pdf

如果一个模型一个gpu放不下，就某些层放在一个卡，上图表示一共四个卡，F0表示第0个batch，灰色的第一个卡计算完第0个batch交给黄色的卡。黄卡上放的模型的层的输入是灰色的卡上放的模型的输出。一次只有一个gpu工作。

GPipe

把mini batch分成micro batch，这样多个gpu可以同时计算。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vWgbtoCx-1691048478616)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8aa74ef6-308b-48d9-b961-ac72a6031873/Untitled.png)]

具体的算法：

用户定义好L层的网络、前向、损失函数等以后，GPipe 就会将网络划分为 K 个单元，并将第 k 个单元放置在第 k 个加速器上。通信原语自动插入到分区边界，以允许相邻分区之间的数据传输。分区算法最小化所有单元估计成本的方差，以便通过同步所有分区的计算时间来最大化管道的效率。

前向过程：GPipe先把大小为N的minibatch分成M个相等的micro batch，通过 K 个加速器进行流水线处理。在向后传递过程中，每个micro batch通过 K 个加速器进行流水线处理。在向后传递过程中，通过 K 个加速器进行流水线处理。在向后传递过程中，每个micro batch计算梯度都是基于跟前向同一个模型，没有误差哦。每个mini batch的最后，M个micro的梯度都计算完了

在前向计算期间，每个加速器仅存储分区边界处的输出激活。在向后传递期间，第 k 个加速器重新计算复合前向函数 Fk。

在micro-batch的划分下，我们在计算Batch Normalization时会有影响。Gpipe的方法是，在训练时计算和运用的是micro-batch里的均值和方差，但同时持续追踪全部mini-batch的移动平均和方差，以便在测试阶段进行使用。Layer NORMalization则不受影响。

总结：
如果模型太大一张卡放不下，按照层来切开，第一层放在第一张卡，第二层放在第二张卡，这样第二层要等第一层的计算结果作为输入，等待的时候卡就空闲了很浪费。

gpipe的做法是batch再切开切成micro batch，这样虽然第一个microbatch的时候要等待，但是多张卡可以同时工作了。

GPipe 还用recomputation这个简单有效的技巧来降低内存，进一步允许训练更大的模型

如何按照层自动划分：根据计算量分配到每张卡

gpipe的micro batch上是需要累计梯度的

重计算，多计算一次前向换空间，但是不是梯度来了从头前向一次，中间有几个激活其实存下来了，叫做checkpoint，然后从checkpoing的激活值的位置前向就行。（因为每张卡上不止一个micro batch，所以激活的数量也是好几份，这个量就比较大）

Gpipe流水线其存在两个问题：硬件利用率低，内存占用大。于是在另一篇流水并行的论文里，微软 PipeDream 针对这些问题提出了改进方法，就是1F1B （One Forward pass followed by One Backward pass）策略。

PipeDream

微软在论文 PipeDream: Fast and Efficient Pipeline Parallel DNN Training

PipeDream 模型的基本单位是层，PipeDream将DNN的这些层划分为多个阶段。每个阶段（stage）由模型中的一组连续层组成

在这里插入图片描述

1F1B

由于前向计算的 activation 需要等到对应的后向计算完成后才能释放（无论有没有使用 Checkpointing 技术），因此在流水并行下，如果想尽可能节省缓存 activation 的份数，就要尽量缩短每份 activation 保存的时间，也就是让每份 activation 都尽可能早的释放，所以要让每个 micro-batch 的数据尽可能早的完成后向计算，因此需要把后向计算的优先级提高

在这里插入图片描述

参考：
[源码解析] 深度学习流水线并行Gpipe https://www.cnblogs.com/rossiXYZ/

数据并行DP

FSDP

fair scale的fsdp

https://engineering.fb.com/2021/07/15/open-source/fsdp/

Fully Sharded Data Parallel (FSDP) 是一种DP算法，offload一部分计算到cpu。但是模型的参数在多个gpu之间是share的？每个microbatch的计算还是local to每个gpu的

在标准 DDP 训练中，每个工作人员处理一个单独的批次，并使用allreduce对各gpu的梯度进行求和。虽然 DDP 已经变得非常流行，但它占用的 GPU 内存超出了其需要，因为模型权重和优化器状态会在所有 DDP 工作线程之间复制。

FSDP是PyTorch1.11的新特性。其新特性目的主要是训练大模型。我们都知道pytorch DDP用起来简单方便，但是要求整个模型能加载一个GPU上，这使得大模型的训练需要使用额外复杂的设置进行模型拆分。pytorch的FSDP从DeepSpeed ZeRO以及FairScale的FSDP中获取灵感，打破模型分片的障碍（包括模型参数，梯度，优化器状态），同时仍然保持了数据并行的简单性。

来源地址：https://blog.csdn.net/www_z_dd/article/details/132085114

您可能感兴趣的文档:

--结束END--

本文标题: TP DP PP 并行训练方法介绍

本文链接: https://lsjlt.com/news/378813.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

TP DP PP 并行训练方法介绍

这里写目录标题

张量并行TP

流水线并行 PP

naive模型并行

GPipe

PipeDream

数据并行DP

FSDP

TP DP PP 并行训练方法介绍

pytorch建立mobilenetV3-ssd网络并进行训练与预测方式

C#并行编程Task类用法介绍

Java 并发框架的介绍和使用方法

怎么进行gitlab集成设置？方法介绍

安装MySQL后如何运行？介绍两种方法

执行Shell脚本的4种方法及区别介绍

介绍JS异步的执行原理和回调方法

对command对象属性及其方法进行介绍说明

windows以管理员权限运行命令的方法介绍

简单介绍使用Python解析并修改XML文档的方法

DataTable的AcceptChanges()和RejectChanges()方法介绍并实现DataGridView数据增、删、改

EntityFrameworkCore中执行SQL语句和存储过程的方法介绍

Python绘图并标记出指定点(最大值点)的方法介绍

Vue全局监测错误并生成错误日志实现方法介绍

Windows系统环境下安装Apache并配置虚拟目录的方法介绍

win8.1系统运行GTA4出现R图标闪退的解决方法介绍

达梦数据库获取SQL实际执行计划方法详细介绍

php二叉树的遍历以及进行逻辑操作的方法介绍

Shell脚本对比两个文本文件找出不同行的方法介绍

关于SQL建表语句使用详解

HBase在大数据审计与合规性追踪中的应用

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

HBase的Region Server之间的网络通信优化

HBase在大数据监控与告警系统中的实时数据处理能力

MySQL与HBase在大数据安全策略中的实现与对比

HBase的分布式事务处理在复杂业务场景中的应用

MySQL与HBase在混合存储架构中的整合策略

HBase如何支持高效的二级索引查询

MySQL与HBase在物联网数据收集与处理中的协作模式