1. 开发环境长期运行问题
建议长时间运行作业的用户每周定期检查作业的运行状况。
2. CPU和GPU分开使用问题
创建单独的CPU任务请务必手动选择节点在之前创建过GPU任务节点上面创建单独的CPU任务。反之如果先创建单独的CPU任务,再创建GPU任务请同样手动选择节点将GPU任务创建到之前的CPU任务的节点上面。以及创建任务的时请不要只看个人资源的数量,也需要确认创建任务所需资源与目前资源池中的节点剩余空闲资源是否匹配,以免造成作业排队。
3. 创建多个少于8卡任务
如果存在非8卡空闲的节点则手动选择节点优先往非8卡空闲的节点上面创建任务,如果没有非8卡空闲节点则选用8卡空闲机器,后续任务依然往该8卡空闲机器创建任务。
4. 容器环境保存镜像失败问题
用户在容器环境的非/username目录中存放数据会导致保存镜像体积变大(如/root目录,用户在环境中输入cd命令会默认会进入到/root目录,而不是用户家目录目录),由于镜像会占用计算节点的存储空间,因此大体积镜像可能会导致节点保存镜像失败或拉取新镜像失败。建议,非必要数据不往非/username目录下存放。如因为镜像存储容量造成镜像无法保存问题时,需要用户自行清理。另外,使用conda源可将软件安装到/username目录将不占用镜像存储空间。
5. 创建任务内存大小须知
物理机节点内存容量为512G,用户在创建大内存作业时需自行评估容器作业占用内存大小以避免容器内存使用超限从而导致程序被kill。另外,容器shm是容器的内存的一部分,用户使用shm时需自行评估作业使用shm的大小,如造成shm超额(或使用shm容量+程序使用内存容量超过容器内存限额)会导致容器重建,重建的容器ip地址将会发生变化。
6. 创建可视化任务问题
创建一个可视化任务会占用节点的1个cpu核心,因此用户创建可视化任务时,节点可用cpu核心数=126-创建的可视化任务数量*1
7. 镜像使用问题
建议用户根据平台已有镜像创建任务,如用户遇到使用较新的镜像不能在aistation平台运行的问题,需要用户根据平台已有的镜像修改。
8. 手动指定节点问题
建议用户创建多容器环境时不要手动指定节点,手动指定节点会绑定节点,如遇到手动指定的节点发生故障导致排队则需要原节点故障修复并回归资源组方能结束排队。
9. 暂停开发环境的恢复问题
暂停的开发环境不进行卡时计算,但暂停的开发环境如需要恢复时依然会使用最初创建该开发环境时的镜像,即不进行保存镜像操作,用户如需要保存配置则需要进行将环境保存镜像操作。
10. 开发环境与训练管理计费问题
在 Aistation 平台,开发环境基于 Kubernetes 的 Pod 构建,一旦创建即持续运行,按运行时长计费,需手动关闭才停止计费;
训练管理基于保存的开发环境镜像,按任务执行时长计费,任务完成后环境自动释放并停止计费。
最后编辑:admin 更新时间:2024-12-30 10:44