调研目的

验证 Mellanox InfiniBand 100GB网卡和SR650 Server能兼容

ThinkSystem SR650

Power On (Booting OS or in undetected OS)

Machine Type/Model7X05CTO1WW

验证 SR-IOV虚拟话技术在BIOS/Firmware/Kernel/QEMU/Libvirt能被支持

4.18.0-305.19.1.el8_4.x86_64

验证 Virtual Function PCI设备在KVM能支持passthough

物理硬件

ThinkSystem Mellanox ConnectX-6 HDR100/100GbE QSFP56 2-port PCIe VPI Adapter

lspci

0000:2f:00.0 Ethernet controller [0200]: Mellanox Technologies MT28908 Family [ConnectX-6] [15b3:101b]

0000:2f:00.1 Ethernet controller [0200]: Mellanox Technologies MT28908 Family [ConnectX-6] [15b3:101b]

网口直连(无IB交换机)

无 InfiniBand Switch,如果将100GB IB卡接10GB 交换机纯属暴殄天物,直接IB两口直连,可使网速最大化

BIOS设置

  • SR-IOV(Single Root I/O Virtualization)

    • 必须开启:SR-IOV是一种硬件虚拟化技术,用于在共享物理网络适配器的环境中创建多个虚拟网络适配器。SR-IOV 允许多个虚拟机 (VM) 直接访问物理适配器的硬件资源,从而提高了网络性能和可靠性。
  • Intel VT-d(Virtualization Technology for Directed I/O)

    • Intel VT-d 是一种硬件级别的 I/O 虚拟化技术,用于提供更安全和更高效的 I/O 访问控制和虚拟化。包括以下几个方面:

      • DMA 保护:DMA (Direct Memory Access) 是一种设备与内存之间直接传输数据的方式。Intel VT-d 技术可以保护系统内核和用户空间的内存不被非授权设备读写,从而提高系统的安全性。

      • SR-IOV:SR-IOV (Single Root I/O Virtualization) 是一种硬件级别的虚拟化技术,用于在共享物理网络适配器的环境中创建多个虚拟网络适配器。Intel VT-d 技术可以支持 SR-IOV,并通过硬件分离和隔离来保护虚拟适配器的安全性。

      • PCI Express 隔离:Intel VT-d 技术可以在 PCIe (Peripheral Component Interconnect Express) 总线上执行 I/O 隔离和分区,从而避免了物理设备之间的干扰和冲突,提高了 I/O 性能和可靠性。

网卡驱动升级

注意:100GB IB的网口模式不支持端口PF-VF的虚拟化技术,2个网口不够用,网卡驱动必须升级

第一步:打开Mellanox官网下载驱动 Linux InfiniBand Drivers

第二步:解压缩执行 ./mlnxofedinstall 会发现缺少依赖,按提示反复执行mlnxofedinstall直到依赖全部装上

./mlnxofedinstall

# ./mlnxofedinstall

Logs dir: /tmp/MLNX_OFED_LINUX.11337.logs

General log file: /tmp/MLNX_OFED_LINUX.11337.logs/general.log

Verifying KMP rpms compatibility with target kernel...

Error: One or more required packages for installing MLNX_OFED_LINUX are missing.

Please install the missing packages using your Linux distribution Package Management tool.

Run:

yum install kernel-modules-extra tk

第三步:报错kernel版本不支持时,需要执行驱动自带的脚本

./mlnxofedinstall

# bash mlnx_add_kernel_support.sh -m ./

Note: This program will create MLNX_OFED_LINUX TGZ for rhel8.1 under /tmp directory.

Do you want to continue?[y/N]:y

See log file /tmp/mlnx_iso.20469_logs/mlnx_ofed_iso.20469.log

Checking if all needed packages are installed...

/lib/modules/4.18.0-305.19.1.el8_4.x86_64/build//scripts is required to build mlnx-ofa_kernel-modules RPM.

Please install the corresponding kernel-devel RPM.

Error: One or more required packages for installing OFED-internal are missing.

Please install the missing packages using your Linux distribution Package Management tool.

Run:

yum install kernel-devel-4.18.0-305.19.1.el8_4.x86_64 kernel-rpm-macros

如上述命令报错,缺少kernel-devel依赖,则继续安装依赖,直到报错消失

再次执行下述命令

./mlnxofedinstall

./mlnxofedinstall --add-kernel-support

第四步:修改opensm配置文件, 则opensm服务无法重启

vi /etc/infiniband/openib.conf

# run Firmware update utlity upon system boot in order to update Firmware for newly installed devices

RUN_FW_UPDATER_ONBOOT=yes

Firmware升级

Slot No.

Device Name

Status

Version

Manufacturer

Release Date

1ThinkSystem Mellanox ConnectX-6 HDR100/100GbE QSFP56 2-port PCIe VPI AdapterActive20.30.1004Mellanox Technologies2021/03/29

Kernel启动参数修改

grub启动界面点击e进入command模式

default intel_iommu=on iommu=pt

  1. intel_iommu=on:该参数用于启用 Intel VT-d(Virtualization Technology for Directed I/O)。Intel VT-d 提供硬件级别的 I/O 虚拟化支持,可以增强系统的安全性和性能。启用该选项后,操作系统可以访问和管理 IOMMU(I/O Memory Management Unit),以支持设备的直接内存访问 (DMA) 和虚拟机的 I/O 虚拟化。

  2. iommu=pt:该参数设置 IOMMU 使用的页表类型为 “passthrough”。IOMMU 的页表用于映射设备的物理地址和虚拟地址之间的转换。通过设置 iommu=pt,IOMMU 将直接传递虚拟地址给设备,而不进行额外的转换或修改。这种模式通常用于需要最低延迟和最高性能的应用场景。

uname -a

Linux systemtest 4.18.0-305.19.1.el8_4.x86_64 #1 SMP Wed Sep 15 15:39:39 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

官网参考:

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐