常见问题
使用智川云过程中的常见问题及解决方案。
系统盘、数据盘、文件存储有什么区别?
目录说明
| 类型 | 挂载目录 | 主要用途 |
|---|---|---|
| 系统盘 | / | 存放系统、运行环境、代码 |
| 数据盘 | /root/rivermind-data/ | 存放训练数据、模型文件、任务输出(支持扩容) |
| 文件存储 | /root/rivermind-fs/ | 跨实例共享数据、长期保存数据(需在目标算力区域开通) |
功能对比
| 维度 | 系统盘 | 数据盘 | 文件存储 |
|---|---|---|---|
| 默认容量 | 30GB | 50GB 起 | 按需使用(每个算力区域 20GB 免费) |
| 是否支持扩容 | 否 | 是(不支持缩容) | 按量使用,无需手动扩容 |
| 是否支持缩容 | 否 | 否 | 不涉及 |
| 释放实例后是否保留 | 否 | 否 | 是 |
| 是否可跨实例共享 | 否 | 否 | 是(同一算力区域共享,跨区域不共享) |
| 区域开通规则 | 随实例创建 | 随实例创建 | 需按算力区域分别开通 |
| 免费额度与计费 | - | 默认容量含在实例内,扩容部分按量计费 | 每个算力区域 20GB 免费,超出按量计费 |
| 保存镜像是否包含 | 是 | 否 | 否 |
使用建议
- 环境和依赖放系统盘
- 训练过程数据优先放数据盘(读写性能和稳定性更好)
- 文件存储更适合共享与归档,不建议直接在文件存储上进行训练
- 需要跨实例复用或长期保留的数据放文件存储
系统盘空间不足
表现:无法安装包、报 "No space left on device"
解决:
# 查看占用
du -sh /* 2>/dev/null | sort -hr | head -20
# 清理缓存
pip cache purge
conda clean -a -y
rm -rf ~/.cache/huggingface/hub/
# 大文件移到数据盘
mv /root/large_file /root/rivermind-data/详见 数据管理。
数据盘支持扩容和缩容吗?
结论:数据盘支持扩容,不支持缩容。
- 扩容:可在控制台实例操作中使用「数据盘扩容」,最小扩容量为 1GB,扩容后容量在下次开机后生效。
- 缩容:为保障数据安全,平台暂不支持在线缩容。
如需缩容,推荐方案:
删除文件后空间未释放
问题:删除文件后,磁盘空间没有减少。
原因:JupyterLab 删除文件时默认将文件移入垃圾桶(.Trash 目录),而非真正删除。垃圾桶仍占用磁盘空间,需手动清理。
第一步:定位垃圾桶
不同磁盘的垃圾桶位置不同,以下是常见位置:
| 磁盘 | 垃圾桶路径(通常位置) |
|---|---|
| 系统盘 | /root/.local/share/Trash |
| 数据盘 | /root/rivermind-data/.Trash-0 |
| 文件存储 | /root/rivermind-fs/.Trash-0 |
如果上述路径不存在,可用 find 命令搜索:
# 查找所有 Trash 目录
find / -name "*Trash*" -type d 2>/dev/null
# 或在指定磁盘下查找
find /root/rivermind-data -name ".Trash*" -type d 2>/dev/null第二步:查看占用空间
# 列出目录内容(包括隐藏文件)
ls -a /root/rivermind-data/
# 查看各垃圾桶大小
du -sh /root/.local/share/Trash 2>/dev/null
du -sh /root/rivermind-data/.Trash-0 2>/dev/null
du -sh /root/rivermind-fs/.Trash-0 2>/dev/null
# 查看某个目录下所有文件大小(包括隐藏文件),按大小排序
du -sh /root/rivermind-data/.[!.]* /root/rivermind-data/* 2>/dev/null | sort -hr | head -20第三步:清理垃圾桶
# 清空系统盘垃圾桶
rm -rf /root/.local/share/Trash
# 清空数据盘垃圾桶
rm -rf /root/rivermind-data/.Trash-0
# 清空文件存储垃圾桶
rm -rf /root/rivermind-fs/.Trash-0如何避免此问题
删除文件时直接使用终端 rm 命令,文件不会进入垃圾桶,空间立即释放:
rm -rf /path/to/file命令参数说明
ls -a:列出所有文件,包括以.开头的隐藏文件(如.Trash-0)du:查看文件/目录磁盘占用大小-s:只显示汇总大小,不逐个列出子目录-h:以人类可读格式显示(如1.5G、200M)
rm:删除文件或目录-r:递归删除目录及其内容-f:强制删除,不提示确认
find:在指定路径下搜索文件或目录-name:按名称匹配(支持通配符*)-type d:只搜索目录类型
.[!.]*:匹配以.开头的隐藏文件(排除.和..)sort -hr:按大小从大到小排序head -20:只显示前 20 条结果2>/dev/null:隐藏错误信息(路径不存在时不报错)
详见 JupyterLab。
JupyterLab 无法打开
- 确认实例「运行中」
- 更换为 Chrome 浏览器
- 强制刷新(Ctrl+Shift+R / macOS:Cmd+Shift+R)
- 清除浏览器缓存
- 检查系统盘空间
- 重启实例
无终端选项:Launcher 中没有 Terminal,通常是浏览器兼容性问题,更换 Chrome 浏览器即可解决。如仍无法解决,使用 SSH 远程连接 作为替代。
无法调用 GPU
排查:
nvidia-smi
python -c "import torch; print(torch.cuda.is_available())"解决:
- 确认安装 GPU 版本框架
- 检查 CUDA 版本匹配
- 重启实例
nvidia-smi 显示的 CUDA 版本与选择的不一致
问题:开机时选择的 CUDA 是 11.8,但 nvidia-smi 显示的却是 12.x 或 13.x。
原因:nvidia-smi 显示的是宿主机驱动支持的最高 CUDA 版本,而非容器内实际安装的 CUDA 版本。
说明:
- 智川云实例运行在容器环境中
nvidia-smi右上角显示的CUDA Version表示驱动最高支持的版本- 实际使用的 CUDA 版本由镜像内安装的 CUDA Toolkit 决定
验证实际 CUDA 版本:
# 查看实际安装的 CUDA 版本
nvcc --version
# 或查看 PyTorch 使用的 CUDA 版本
python -c "import torch; print(torch.version.cuda)"结论
只要 nvcc --version 或框架显示的 CUDA 版本与您选择的一致,就说明环境正确,无需担心 nvidia-smi 显示的版本号。
显存未释放
解决:
# 查找进程
nvidia-smi
fuser -v /dev/nvidia*
# 终止进程
kill -9 <PID>代码中释放:
import gc
import torch
del model
gc.collect()
torch.cuda.empty_cache()连接失败
检查:
- 实例是否开机
- 主机地址、端口、密码是否正确
- 本地网络是否正常
端口变更
实例关机后再开机,SSH 端口可能会发生变化(平台端口资源有限,关机后会重新分配)。请从控制台获取最新的连接信息。
清除 known_hosts:
ssh-keygen -R [主机地址]:端口号仍无法连接?
如果以上步骤都确认无误,仍然无法连接:
先 ping 一下 SSH 地址,检查网络是否可达(将
<地址>替换为实际 SSH 地址):bashping <地址> # 示例:ping connect.gpuhome.cc如果 ping 不通或仍有问题,可能是 SSH 地址异常,请通过网站右下角联系在线客服获取帮助
详见 SSH 远程连接、VSCode 远程开发。
程序运行中断
SSH 断开导致程序终止,使用 守护进程:
screen -U -S train
python train.py > train.log 2>&1
# Ctrl+A+D 离开内存不足
解决:
- 减小 batch size
- 使用梯度累积
- 使用混合精度训练
- 升级实例配置
详见 性能优化。
服务器时区不对 / 时间不对(显示 UTC)
表现:服务器时间显示不正确,date 显示为 UTC,与本地时间不一致(如北京时间慢 8 小时)。
解决(安装 tzdata):
# 1) 安装 tzdata
apt-get update && apt-get install -y tzdata
# 2) 在安装过程中的交互界面按以下选择
# Geographic area: 6 (Asia)
# Time zone: 70 (Shanghai)
# 3) 验证
date如果 tzdata 已安装但时区仍不对,可重新配置:
dpkg-reconfigure tzdata
# Geographic area: 6 (Asia)
# Time zone: 70 (Shanghai)
date参考命令(可选): 如需确认是否为系统时区配置问题,可执行以下命令:
date
echo "$TZ"
cat /etc/timezone 2>/dev/null
ls -l /etc/localtime注册奖励 / 邀请奖励未到账
问题:通过邀请链接注册后未收到注册奖励,或邀请好友后未收到邀请奖励。
原因:所有奖励均为人工审核发放,需被邀请人主动添加客服微信完成验证,非系统自动到账。
领取步骤:
- 被邀请人通过邀请链接或填写邀请码完成注册
- 被邀请人在平台完成实名认证
- 被邀请人添加客服微信,提供邀请人的手机号
- 客服核实双方为真实有效用户后,分别发放奖励:
- 被邀请人获得 10 元 注册代金券
- 邀请人获得 3 元 邀请代金券
常见未到账原因
- 被邀请人未添加客服微信进行验证
- 被邀请人未向客服提供邀请人信息
- 被邀请人未完成平台实名认证
- 注册时未填写邀请码或未通过邀请链接注册
如有疑问,请通过网站右下角联系在线客服,或添加客服微信咨询。
其他问题
如遇未涵盖的问题,请通过网站右下角联系在线客服获取帮助。
