RoCE网络使用手册
RoCE(RDMA over Converged Ethernet)网络是一种基于以太网的高性能网络技术,允许在以太网上实现RDMA(远程直接内存访问)操作,从而提高数据传输的效率和性能。RoCE网络可以在不需要更换现有以太网基础设施的情况下,提供类似于InfiniBand网络的低延迟、高吞吐量和低CPU利用率的性能。RoCE网络通常用于高性能计算、云计算、虚拟化和存储等领域。
一、脚本模板
#!/bin/bash
#SBATCH --nodes=3 ####三节点运行,可以根据自身需求进行修改
#SBATCH --ntasks-per-node=56
#SBATCH --partition=d1_roce_384
#SBATCH --job-name=lammps
#SBATCH --output=lm.%j.out
#SBATCH --error=lm.%j.err
unset I_MPI_PMI_LIBRARY # 取消默认mpi库,使用intel自带
export I_MPI_JOB_RESPECT_PROCESS_PLACEMENT=0 # intel 多节点作业所需修改参数
module load intel/2022 intelmpi/2022 # intel 环境加载
module load lammps/30apr2019_intel2022 #lammps 环境加载
ulimit -s unlimited
ulimit -l unlimited
##模板
##mpirun -env UCX_NET_DEVICES=mlx5_0:1 -genv I_MPI_FABRICS=shm:ofa -genv I_MPI_OFI_PROVIDER=mlx -genv I_MPI_DEBUG=5 ##运行命令##
#####以lammps运行举例
mpirun -env UCX_NET_DEVICES=mlx5_0:1 -genv I_MPI_FABRICS=shm:ofa -genv I_MPI_OFI_PROVIDER=mlx -genv I_MPI_DEBUG=5 lmp_mpi -in in.PMA1
###注意
### 1、目前只有d1_ib、d1_roce_384队列修改网络为roce,--partition需指定为以上队列
### 2、上述提交脚本为lammps算例在RoCE网络运行的脚本,其他软件运行要参考3.4部分,intelmpi mpirun后需要添加 -genv I_MPI_FABRICS=shm:ofa -genv I_MPI_OFI_PROVIDER=mlx -genv I_MPI_DEBUG=5 和指定网卡 -env UCX_NET_DEVICES=mlx5_0:1
作者:admin 创建时间:2023-03-16 10:49
最后编辑:admin 更新时间:2024-12-05 10:20
最后编辑:admin 更新时间:2024-12-05 10:20