服务器使用的是Ubuntu,2080Ti,pytorch1.3,CUDA=10.0的程序在0,1卡正常运行,当换到2,3卡时出现了RuntimeError: CUDA error: out of memory。使用nvidia-smi监控的GPU使用量两块卡分别使用了10M,那么一定不是GPU内存出错的原因。首先看一下出错代码部分
device = torch.device("cuda:2" if torch.cuda.is_available() else "cpu") net = MFNET_3D() net = torch.nn.DataParallel(net,device_ids=device_ids).cuda()
调试代码时,发现只要一调用.cuda(),程序就出现本文的错误,进一步确定是代码的问题(虽然一开始坚信是代码时没有错误的),尝试各种解决方案,并没有有效解决,查看torch.nn.DataParallel是如何使用多GPU加速的,发现一位前辈的介绍,抱着试试的态度,对代码进行修改,修改后的结果是
net = MFNET_3D() net = net.cuda(device_ids[0]) #device = torch.device("cuda:2" if torch.cuda.is_available() else "cpu") net = torch.nn.DataParallel(net,device_ids=device_ids)#.cuda()
如此程序不再出现这个问题,如果在对数据加速时出现该错误,可以尝试使用
.to(device=device_ids[0])
代替使用
.cuda()
方法