RoCE网络使用手册

RoCE(RDMA over Converged Ethernet)网络是一种基于以太网的高性能网络技术,允许在以太网上实现RDMA(远程直接内存访问)操作,从而提高数据传输的效率和性能。RoCE网络可以在不需要更换现有以太网基础设施的情况下,提供类似于InfiniBand网络的低延迟、高吞吐量和低CPU利用率的性能。RoCE网络通常用于高性能计算、云计算、虚拟化和存储等领域。

一、脚本模板

#!/bin/bash
#SBATCH --nodes=3                             ####三节点运行,可以根据自身需求进行修改
#SBATCH --ntasks-per-node=56
#SBATCH --partition=d1_roce_384
#SBATCH --job-name=lammps
#SBATCH --output=lm.%j.out
#SBATCH --error=lm.%j.err

unset I_MPI_PMI_LIBRARY                        # 取消默认mpi库,使用intel自带
export I_MPI_JOB_RESPECT_PROCESS_PLACEMENT=0   # intel 多节点作业所需修改参数 
module load intel/2022 intelmpi/2022        # intel 环境加载
module load lammps/30apr2019_intel2022     #lammps 环境加载
ulimit -s unlimited
ulimit -l unlimited

##模板 
##mpirun  -env UCX_NET_DEVICES=mlx5_0:1 -genv I_MPI_FABRICS=shm:ofa -genv I_MPI_OFI_PROVIDER=mlx -genv I_MPI_DEBUG=5  ##运行命令##

#####以lammps运行举例
mpirun  -env UCX_NET_DEVICES=mlx5_0:1 -genv I_MPI_FABRICS=shm:ofa -genv I_MPI_OFI_PROVIDER=mlx -genv I_MPI_DEBUG=5   lmp_mpi  -in   in.PMA1
###注意
###      1、目前只有d1_ib、d1_roce_384队列修改网络为roce,--partition需指定为以上队列
###      2、上述提交脚本为lammps算例在RoCE网络运行的脚本,其他软件运行要参考3.4部分,intelmpi mpirun后需要添加 -genv I_MPI_FABRICS=shm:ofa -genv I_MPI_OFI_PROVIDER=mlx -genv I_MPI_DEBUG=5 和指定网卡 -env UCX_NET_DEVICES=mlx5_0:1
作者:admin  创建时间:2023-03-16 10:49
最后编辑:admin  更新时间:2024-08-21 15:59