Skip to content

常见问题

使用智川云过程中的常见问题及解决方案。

系统盘、数据盘、文件存储有什么区别?

目录说明

类型挂载目录主要用途
系统盘/存放系统、运行环境、代码
数据盘/root/rivermind-data/存放训练数据、模型文件、任务输出(支持扩容)
文件存储/root/rivermind-fs/跨实例共享数据、长期保存数据(需在目标算力区域开通)

功能对比

维度系统盘数据盘文件存储
默认容量30GB50GB 起按需使用(每个算力区域 20GB 免费)
是否支持扩容是(不支持缩容)按量使用,无需手动扩容
是否支持缩容不涉及
释放实例后是否保留
是否可跨实例共享是(同一算力区域共享,跨区域不共享)
区域开通规则随实例创建随实例创建需按算力区域分别开通
免费额度与计费-默认容量含在实例内,扩容部分按量计费每个算力区域 20GB 免费,超出按量计费
保存镜像是否包含

使用建议

  • 环境和依赖放系统盘
  • 训练过程数据优先放数据盘(读写性能和稳定性更好)
  • 文件存储更适合共享与归档,不建议直接在文件存储上进行训练
  • 需要跨实例复用或长期保留的数据放文件存储

详见 数据管理概述文件存储

系统盘空间不足

表现:无法安装包、报 "No space left on device"

解决

bash
# 查看占用
du -sh /* 2>/dev/null | sort -hr | head -20

# 清理缓存
pip cache purge
conda clean -a -y
rm -rf ~/.cache/huggingface/hub/

# 大文件移到数据盘
mv /root/large_file /root/rivermind-data/

详见 数据管理

数据盘支持扩容和缩容吗?

结论:数据盘支持扩容,不支持缩容。

  • 扩容:可在控制台实例操作中使用「数据盘扩容」,最小扩容量为 1GB,扩容后容量在下次开机后生效。
  • 缩容:为保障数据安全,平台暂不支持在线缩容。

如需缩容,推荐方案

  1. 新建实例,或克隆实例(可复制系统盘环境和系统盘数据)时不勾选「复制数据盘」
  2. 为新实例配置目标容量的数据盘
  3. 迁移数据:使用 复制到数据盘,或先迁移到 文件存储 再同步到新实例
  4. 核对数据无误后,释放旧实例

详见 数据盘扩容克隆实例

删除文件后空间未释放

问题:删除文件后,磁盘空间没有减少。

原因:JupyterLab 删除文件时默认将文件移入垃圾桶(.Trash 目录),而非真正删除。垃圾桶仍占用磁盘空间,需手动清理。

第一步:定位垃圾桶

不同磁盘的垃圾桶位置不同,以下是常见位置:

磁盘垃圾桶路径(通常位置)
系统盘/root/.local/share/Trash
数据盘/root/rivermind-data/.Trash-0
文件存储/root/rivermind-fs/.Trash-0

如果上述路径不存在,可用 find 命令搜索:

bash
# 查找所有 Trash 目录
find / -name "*Trash*" -type d 2>/dev/null

# 或在指定磁盘下查找
find /root/rivermind-data -name ".Trash*" -type d 2>/dev/null

第二步:查看占用空间

bash
# 列出目录内容(包括隐藏文件)
ls -a /root/rivermind-data/

# 查看各垃圾桶大小
du -sh /root/.local/share/Trash 2>/dev/null
du -sh /root/rivermind-data/.Trash-0 2>/dev/null
du -sh /root/rivermind-fs/.Trash-0 2>/dev/null

# 查看某个目录下所有文件大小(包括隐藏文件),按大小排序
du -sh /root/rivermind-data/.[!.]* /root/rivermind-data/* 2>/dev/null | sort -hr | head -20

第三步:清理垃圾桶

bash
# 清空系统盘垃圾桶
rm -rf /root/.local/share/Trash

# 清空数据盘垃圾桶
rm -rf /root/rivermind-data/.Trash-0

# 清空文件存储垃圾桶
rm -rf /root/rivermind-fs/.Trash-0

如何避免此问题

删除文件时直接使用终端 rm 命令,文件不会进入垃圾桶,空间立即释放:

bash
rm -rf /path/to/file
命令参数说明
  • ls -a:列出所有文件,包括以 . 开头的隐藏文件(如 .Trash-0
  • du:查看文件/目录磁盘占用大小
    • -s:只显示汇总大小,不逐个列出子目录
    • -h:以人类可读格式显示(如 1.5G200M
  • rm:删除文件或目录
    • -r:递归删除目录及其内容
    • -f:强制删除,不提示确认
  • find:在指定路径下搜索文件或目录
    • -name:按名称匹配(支持通配符 *
    • -type d:只搜索目录类型
  • .[!.]*:匹配以 . 开头的隐藏文件(排除 ...
  • sort -hr:按大小从大到小排序
  • head -20:只显示前 20 条结果
  • 2>/dev/null:隐藏错误信息(路径不存在时不报错)

详见 JupyterLab

JupyterLab 无法打开

  1. 确认实例「运行中」
  2. 更换为 Chrome 浏览器
  3. 强制刷新(Ctrl+Shift+R / macOS:Cmd+Shift+R)
  4. 清除浏览器缓存
  5. 检查系统盘空间
  6. 重启实例

无终端选项:Launcher 中没有 Terminal,通常是浏览器兼容性问题,更换 Chrome 浏览器即可解决。如仍无法解决,使用 SSH 远程连接 作为替代。

无法调用 GPU

排查

bash
nvidia-smi
python -c "import torch; print(torch.cuda.is_available())"

解决

  1. 确认安装 GPU 版本框架
  2. 检查 CUDA 版本匹配
  3. 重启实例

nvidia-smi 显示的 CUDA 版本与选择的不一致

问题:开机时选择的 CUDA 是 11.8,但 nvidia-smi 显示的却是 12.x 或 13.x。

原因nvidia-smi 显示的是宿主机驱动支持的最高 CUDA 版本,而非容器内实际安装的 CUDA 版本。

说明

  • 智川云实例运行在容器环境中
  • nvidia-smi 右上角显示的 CUDA Version 表示驱动最高支持的版本
  • 实际使用的 CUDA 版本由镜像内安装的 CUDA Toolkit 决定

验证实际 CUDA 版本

bash
# 查看实际安装的 CUDA 版本
nvcc --version

# 或查看 PyTorch 使用的 CUDA 版本
python -c "import torch; print(torch.version.cuda)"

结论

只要 nvcc --version 或框架显示的 CUDA 版本与您选择的一致,就说明环境正确,无需担心 nvidia-smi 显示的版本号。

显存未释放

解决

bash
# 查找进程
nvidia-smi
fuser -v /dev/nvidia*

# 终止进程
kill -9 <PID>

代码中释放:

python
import gc
import torch
del model
gc.collect()
torch.cuda.empty_cache()

连接失败

检查

  1. 实例是否开机
  2. 主机地址、端口、密码是否正确
  3. 本地网络是否正常

端口变更

实例关机后再开机,SSH 端口可能会发生变化(平台端口资源有限,关机后会重新分配)。请从控制台获取最新的连接信息。

清除 known_hosts

bash
ssh-keygen -R [主机地址]:端口号

仍无法连接?

如果以上步骤都确认无误,仍然无法连接:

  1. 先 ping 一下 SSH 地址,检查网络是否可达(将 <地址> 替换为实际 SSH 地址):

    bash
    ping <>
    # 示例:ping connect.gpuhome.cc
  2. 如果 ping 不通或仍有问题,可能是 SSH 地址异常,请通过网站右下角联系在线客服获取帮助

详见 SSH 远程连接VSCode 远程开发

程序运行中断

SSH 断开导致程序终止,使用 守护进程

bash
screen -U -S train
python train.py > train.log 2>&1
# Ctrl+A+D 离开

内存不足

解决

  1. 减小 batch size
  2. 使用梯度累积
  3. 使用混合精度训练
  4. 升级实例配置

详见 性能优化

服务器时区不对 / 时间不对(显示 UTC)

表现:服务器时间显示不正确,date 显示为 UTC,与本地时间不一致(如北京时间慢 8 小时)。

解决(安装 tzdata)

bash
# 1) 安装 tzdata
apt-get update && apt-get install -y tzdata

# 2) 在安装过程中的交互界面按以下选择
# Geographic area: 6  (Asia)
# Time zone: 70      (Shanghai)

# 3) 验证
date

如果 tzdata 已安装但时区仍不对,可重新配置:

bash
dpkg-reconfigure tzdata
# Geographic area: 6  (Asia)
# Time zone: 70      (Shanghai)
date

参考命令(可选): 如需确认是否为系统时区配置问题,可执行以下命令:

bash
date
echo "$TZ"
cat /etc/timezone 2>/dev/null
ls -l /etc/localtime

注册奖励 / 邀请奖励未到账

问题:通过邀请链接注册后未收到注册奖励,或邀请好友后未收到邀请奖励。

原因:所有奖励均为人工审核发放,需被邀请人主动添加客服微信完成验证,非系统自动到账。

领取步骤

  1. 被邀请人通过邀请链接或填写邀请码完成注册
  2. 被邀请人在平台完成实名认证
  3. 被邀请人添加客服微信,提供邀请人的手机号
  4. 客服核实双方为真实有效用户后,分别发放奖励:
    • 被邀请人获得 10 元 注册代金券
    • 邀请人获得 3 元 邀请代金券

常见未到账原因

  • 被邀请人未添加客服微信进行验证
  • 被邀请人未向客服提供邀请人信息
  • 被邀请人未完成平台实名认证
  • 注册时未填写邀请码或未通过邀请链接注册

如有疑问,请通过网站右下角联系在线客服,或添加客服微信咨询。

详见 邀请好友实名认证

其他问题

如遇未涵盖的问题,请通过网站右下角联系在线客服获取帮助。

智算无疆 川流不息