【优化调参】提升GPU和CPU的利用率

在深度学习项目中，调节batch_size和num_workers参数来充分发挥GPU和CPU的性能

魔法攻城狮MRL

15924人浏览 · 2021-11-27 00:18:27

魔法攻城狮MRL · 2021-11-27 00:18:27 发布

如果本文对您有帮助，欢迎点赞支持！

本博客是记录作者部署优化本地深度学习项目的经验。在深度学习项目中，我们最常见的提速方式是使用GPU，但是GPU使用了后可能会发现GPU利用率和CPU利用率很低，这很可能是我们项目中batch size和num_workers的参数设置没有充分发挥GPU和CPU的性能。（直接上更好硬件的方式不在此笔记考虑范围）

一、CPU和GPU做什么？

CPU是计算机的中央处理器，这一点相信不必多言。在深度学习项目中，CPU主要负责从磁盘中读取数据集数据、显示或者保存实验数据到磁盘。

GPU是计算机的图形处理器，平常主要负责图形渲染。在深度学习项目中，GPU主要负责深度学习框架中的张量（tensor）计算，主要工作基本是前向传播和反向传播部分。

二、记录项目指标

为了方便我们了解此时影响深度学习项目的主要因素，我们可以在训练中统计以下三个阶段的用时：

阶段	主要操作
数据加载	获取输入数据和目标数据，并且转换为GPU类型
前向传播	model.forward()
反向传播	计算loss，loss.backward()，优化器的step()

三、优化项目参数

本次我们主要调节batch_size和num_workers两个参数，使用Pytorch平台(tensorflow平台类似)，相关API如下：

torch.utils.data.DataLoader(image_datasets[x],
                            batch_size=batch_size, 
                            shuffle=True,
                            num_workers=8,
                            pin_memory=True)

注意：pin_memory参数根据你的机器CPU内存情况，选择是否打开。

pin_memory参数为False时，数据从CPU传入到缓存RAM里面，再给传输到GPU上；

pin_memory参数为True时，数据从CPU直接映射到GPU的相关内存块上。

如果调节batch size和num_workers后，CPU内存依旧剩余较多，可以设置其为True来省掉一点数据传输时间。