共享内存简介及docker容器的shm设置与修改

共享内存简介

共享内存指 (shared memory)在多处理器的计算机系统中,可以被不同中央处理器(CPU)访问的大容量内存。由于多个CPU需要快速访问存储器,这样就要对存储器进行缓存(Cache)。任何一个缓存的数据被更新后,由于其他处理器也可能要存取,共享内存就需要立即更新,否则不同的处理器可能用到不同的数据。共享内存是 Unix下的多进程之间的通信方法 ,这种方法通常用于一个程序的多进程间通信,实际上多个程序间也可以通过共享内存来传递信息。

实际上,共享内存区是最快的IPC形式。一旦这样的内存映射到共享它的进程的地址空间,这些进程间数据传递不再涉及到内核,换句话说是进程不再通过执行进入内核的系统调用来传递彼此的数据。

docker容器shm的设置与修改

问题

我们在 docker 容器来跑我们的 PyTorch 模型训练任务时如果设置不当,会遇到类似这样的报错:

RuntimeError: DataLoader worker (pid 1229) is killed by signal: Bus error. 
It is possible that dataloader's workers are out of shared memory. 
Please try to raise your shared memory limit.

可以看到,这是 DataLoader 的保存,我们在设置 DataLoader 时通常会给一个 num_workers 的值(该值推荐设置为本机的 CPU 核心数),但是在 docker 容器中训练任务时,或许我们的宿主机有很大内存空闲,但是却会报上面的共享内存不足的问题。

这就是由于我们在创建 docker 容器时没有给足够的共享内存(默认为 64MB)。共享内存的大小我们可以在容器内通过以下命令查看:

df -lh | grep shm
# 输出:
shm              64M     0   64M   0% /dev/shm

或者:

ipcs -al
# 输出:
------ Messages Limits --------
max queues system wide = 32000
max size of message (bytes) = 8192
default max size of queue (bytes) = 16384

------ Shared Memory Limits --------
max number of segments = 4096
max seg size (kbytes) = 18014398509465599
max total shared memory (kbytes) = 18014398509481980
min seg size (bytes) = 1

------ Semaphore Limits --------
max number of arrays = 32000
max semaphores per array = 32000
max semaphores system wide = 1024000000
max ops per semop call = 500
semaphore max value = 32767

这种情况有三种解决方法。

解决方法

方法一

方法一就是直接不要设置 num_workers 了,让它为默认值 0,这时就不需要很大的共享内存了,任务可以正常跑起来。

该方法的问题是:我们跑训练任务时肯定是需要很大的 num_workers 的,不然数据运输太慢会导致 GPU 利用率很低。

因此该方法仅适用于我们在容器内 debug 训练代码时,此时不需要很大的 num_workers,只要保证代码无误,然后在正式开始跑训练时正常设置共享内存和 num_workers 即可。

方法二

那么,应该怎样正确设置共享内存的大小呢?其实很简单,只需要我们在启动容器时加一个参数 --shm-size 即可,如:

docker run -it \
        --gpus '"device=0,1"' \
        --shm-size 32g \
        --mount type=bind,source=/ssd1t/song/Datasets/coco,target=/master_data \
        adenialzz/bilibili-projects:tch-mmdet-py38-tch19

即可将共享内存设置为 32g。

但是,有时我们在容器内已经做了一些事情,不想新建容器,而就是想改变当前容器的共享内存该怎么办呢?

方法三

这种情况稍微麻烦一点,但也是可以实现的,步骤如下:

  1. 首先关闭 docker 服务:

    service docker stop
    
  2. 查看当前容器的 id:

    docker ps -a
    

    找到我们要修改的容器的 CONTAINER ID,就是第一列,长得像这样:685d249a0965 的一个序列,通常显示的是简短的版本(即完整 ID 的开头几个字符),实际这个 ID 很长。

  3. 找到该容器配置文件所在目录

    cd /var/lib/docker/containers
    ls
    cd 685d249a096569335605747977dcb3d705947b1049259de2e259dc4b9a7da3fa
    

    这时会显示出几个以当前存在的容器 ID 为名的目录,找到我们要修改共享内存的那个(开头匹配我们刚才记下的 CONTAINER ID),进入目录。

  4. 修改宿主机中的 host 配置文件(此步通常需要 root 权限)

    vim hostconfig.json
    

    然后会看到一堆东西,找到 "ShmSize":67108864,可以看到,现在就是 67108864 字节,即64MB,我们就是要修改该值,比如在后面填俩零就是扩大了一百倍,自己算一下需要的共享内存大小,按需扩大,保存退出。

  5. 重启 docker 服务

    // 停止docker服务
    systemctl stop docker  
    // 再开启
    systemctl start docker  
    
    //或者
    systemctl restatrt docker
    
    //或者
    service docker stop
    service docker start
    
  6. 再打开容器,进去看一下吧

Ref:

https://blog.csdn.net/gg864461719/article/details/112466585

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐