使用多个GPU运行程序通常涉及以下步骤:
设置GPU可见性
通过设置环境变量 `CUDA_VISIBLE_DEVICES` 来指定程序可见的GPU。例如,在命令行中可以使用以下命令:
```bash
export CUDA_VISIBLE_DEVICES=0,1,2,3
```
在Python脚本中,可以通过以下方式设置:
```python
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2,3'
```
使用深度学习框架的并行计算功能
TensorFlow:使用 `tf.distribute.Strategy` API,例如 `tf.distribute.MirroredStrategy`:
```python
import tensorflow as tf
strategy = tf.distribute.MirroredStrategy()
with strategy.scope():
定义模型、优化器等
```
PyTorch:使用 `torch.nn.DataParallel` 或 `torch.nn.parallel.DistributedDataParallel`:
```python
import torch
model = torch.nn.DataParallel(model, device_ids=[0, 1])
```
数据并行
将输入数据分割成多个部分,每个部分分配给一个GPU进行处理,最后将结果汇总。这种方法适用于大型数据集,但需要将整个数据集复制到每个GPU,消耗大量内存。
模型并行
将模型分割成多个部分,每个部分分配给不同的GPU,前向和后向传播过程也在不同的GPU上执行。这种方法需要对网络结构进行修改,较为复杂。
多GPU框架
一些深度学习框架如TensorFlow和PyTorch本身就支持多GPU并行计算,只需在代码中设置正确的设备和分布策略即可。
示例代码(PyTorch)
```python
import torch
import torch.nn as nn
import torch.optim as optim
假设我们有一个简单的模型
class SimpleModel(nn.Module):
def __init__(self):
super(SimpleModel, self).__init__()
self.conv1 = nn.Conv2d(1, 32, kernel_size=3)
self.conv2 = nn.Conv2d(32, 64, kernel_size=3)
def forward(self, x):
x = F.relu(self.conv1(x))
x = F.relu(self.conv2(x))
return x
实例化模型
model = SimpleModel()
使用DataParallel
if torch.cuda.device_count() > 1:
print(f"Using {torch.cuda.device_count()} GPUs")
model = nn.DataParallel(model)
将模型放到GPU上
model.cuda()
定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)
假设我们有一些输入数据
inputs = torch.randn(100, 1, 28, 28).cuda()
labels = torch.randint(0, 10, (100,)).cuda()
训练循环
for epoch in range(10):
for data, target in dataloader:
optimizer.zero_grad()
output = model(data)
loss = criterion(output, target)
loss.backward()
optimizer.step()
```
注意事项
显存限制:确保每个GPU有足够的显存来存储模型参数和输入数据。
同步问题:在多GPU环境下,需要确保所有GPU之间的操作是同步的,否则可能会导致训练结果不一致。
框架选择:不同的深度学习框架可能有不同的多GPU支持方式,选择合适的框架可以简化多GPU编程。
通过以上步骤和示例代码,你应该能够在多个GPU上成功运行你的程序。