常见问题

使用智川云过程中的常见问题及解决方案。

系统盘、数据盘、文件存储有什么区别？

目录说明

类型	挂载目录	主要用途
系统盘	`/`	存放系统、运行环境、代码
数据盘	`/root/rivermind-data/`	存放训练数据、模型文件、任务输出（支持扩容）
文件存储	`/root/rivermind-fs/`	跨实例共享数据、长期保存数据（需在目标算力区域开通）

功能对比

维度	系统盘	数据盘	文件存储
默认容量	30GB	50GB 起	按需使用（每个算力区域 20GB 免费）
是否支持扩容	否	是（不支持缩容）	按量使用，无需手动扩容
是否支持缩容	否	否	不涉及
释放实例后是否保留	否	否	是
是否可跨实例共享	否	否	是（同一算力区域共享，跨区域不共享）
区域开通规则	随实例创建	随实例创建	需按算力区域分别开通
免费额度与计费	-	默认容量含在实例内，扩容部分按量计费	每个算力区域 20GB 免费，超出按量计费
保存镜像是否包含	是	否	否

使用建议

环境和依赖放系统盘
训练过程数据优先放数据盘（读写性能和稳定性更好）
文件存储更适合共享与归档，不建议直接在文件存储上进行训练
需要跨实例复用或长期保留的数据放文件存储

详见数据管理概述、文件存储。

系统盘空间不足

表现：无法安装包、报 "No space left on device"

解决：

bash

# 查看占用
du -sh /* 2>/dev/null | sort -hr | head -20

# 清理缓存
pip cache purge
conda clean -a -y
rm -rf ~/.cache/huggingface/hub/

# 大文件移到数据盘
mv /root/large_file /root/rivermind-data/

详见数据管理。

数据盘支持扩容和缩容吗？

结论：数据盘支持扩容，不支持缩容。

扩容：可在控制台实例操作中使用「数据盘扩容」，最小扩容量为 1GB，扩容后容量在下次开机后生效。
缩容：为保障数据安全，平台暂不支持在线缩容。

如需缩容，推荐方案：

新建实例，或克隆实例（可复制系统盘环境和系统盘数据）时不勾选「复制数据盘」
为新实例配置目标容量的数据盘
迁移数据：使用复制到数据盘，或先迁移到文件存储再同步到新实例
核对数据无误后，释放旧实例

详见数据盘扩容、克隆实例。

删除文件后空间未释放

问题：删除文件后，磁盘空间没有减少。

原因：JupyterLab 删除文件时默认将文件移入垃圾桶（.Trash 目录），而非真正删除。垃圾桶仍占用磁盘空间，需手动清理。

第一步：定位垃圾桶

不同磁盘的垃圾桶位置不同，以下是常见位置：

磁盘	垃圾桶路径（通常位置）
系统盘	`/root/.local/share/Trash`
数据盘	`/root/rivermind-data/.Trash-0`
文件存储	`/root/rivermind-fs/.Trash-0`

如果上述路径不存在，可用 find 命令搜索：

bash

# 查找所有 Trash 目录
find / -name "*Trash*" -type d 2>/dev/null

# 或在指定磁盘下查找
find /root/rivermind-data -name ".Trash*" -type d 2>/dev/null

第二步：查看占用空间

bash

# 列出目录内容（包括隐藏文件）
ls -a /root/rivermind-data/

# 查看各垃圾桶大小
du -sh /root/.local/share/Trash 2>/dev/null
du -sh /root/rivermind-data/.Trash-0 2>/dev/null
du -sh /root/rivermind-fs/.Trash-0 2>/dev/null

# 查看某个目录下所有文件大小（包括隐藏文件），按大小排序
du -sh /root/rivermind-data/.[!.]* /root/rivermind-data/* 2>/dev/null | sort -hr | head -20

第三步：清理垃圾桶

bash

# 清空系统盘垃圾桶
rm -rf /root/.local/share/Trash

# 清空数据盘垃圾桶
rm -rf /root/rivermind-data/.Trash-0

# 清空文件存储垃圾桶
rm -rf /root/rivermind-fs/.Trash-0

如何避免此问题

删除文件时直接使用终端 rm 命令，文件不会进入垃圾桶，空间立即释放：

bash

rm -rf /path/to/file

命令参数说明

ls -a：列出所有文件，包括以 . 开头的隐藏文件（如 .Trash-0）
du：查看文件/目录磁盘占用大小
- -s：只显示汇总大小，不逐个列出子目录
- -h：以人类可读格式显示（如 1.5G、200M）
rm：删除文件或目录
- -r：递归删除目录及其内容
- -f：强制删除，不提示确认
find：在指定路径下搜索文件或目录
- -name：按名称匹配（支持通配符 *）
- -type d：只搜索目录类型
.[!.]*：匹配以 . 开头的隐藏文件（排除 . 和 ..）
sort -hr：按大小从大到小排序
head -20：只显示前 20 条结果
2>/dev/null：隐藏错误信息（路径不存在时不报错）

详见 JupyterLab。

JupyterLab 无法打开

确认实例「运行中」
更换为 Chrome 浏览器
强制刷新（Ctrl+Shift+R / macOS：Cmd+Shift+R）
清除浏览器缓存
检查系统盘空间
重启实例

无终端选项：Launcher 中没有 Terminal，通常是浏览器兼容性问题，更换 Chrome 浏览器即可解决。如仍无法解决，使用 SSH 远程连接作为替代。

无法调用 GPU

排查：

bash

nvidia-smi
python -c "import torch; print(torch.cuda.is_available())"

解决：

确认安装 GPU 版本框架
检查 CUDA 版本匹配
重启实例

nvidia-smi 显示的 CUDA 版本与选择的不一致

问题：开机时选择的 CUDA 是 11.8，但 nvidia-smi 显示的却是 12.x 或 13.x。

原因：nvidia-smi 显示的是宿主机驱动支持的最高 CUDA 版本，而非容器内实际安装的 CUDA 版本。

说明：

智川云实例运行在容器环境中
nvidia-smi 右上角显示的 CUDA Version 表示驱动最高支持的版本
实际使用的 CUDA 版本由镜像内安装的 CUDA Toolkit 决定

验证实际 CUDA 版本：

bash

# 查看实际安装的 CUDA 版本
nvcc --version

# 或查看 PyTorch 使用的 CUDA 版本
python -c "import torch; print(torch.version.cuda)"

结论

只要 nvcc --version 或框架显示的 CUDA 版本与您选择的一致，就说明环境正确，无需担心 nvidia-smi 显示的版本号。

显存未释放

解决：

bash

# 查找进程
nvidia-smi
fuser -v /dev/nvidia*

# 终止进程
kill -9 <PID>

代码中释放：

python

import gc
import torch
del model
gc.collect()
torch.cuda.empty_cache()

连接失败

检查：

实例是否开机
主机地址、端口、密码是否正确
本地网络是否正常

端口变更

实例关机后再开机，SSH 端口可能会发生变化（平台端口资源有限，关机后会重新分配）。请从控制台获取最新的连接信息。

清除 known_hosts：

bash

ssh-keygen -R [主机地址]:端口号

仍无法连接？

如果以上步骤都确认无误，仍然无法连接：

先 ping 一下 SSH 地址，检查网络是否可达（将 <地址> 替换为实际 SSH 地址）：
bash
```
ping <地址>
# 示例：ping connect.gpuhome.cc
```
如果 ping 不通或仍有问题，可能是 SSH 地址异常，请通过网站右下角联系在线客服获取帮助

详见 SSH 远程连接、VSCode 开发。

程序运行中断

SSH 断开导致程序终止，使用守护进程：

bash

screen -U -S train
python train.py > train.log 2>&1
# Ctrl+A+D 离开

内存不足

解决：

减小 batch size
使用梯度累积
使用混合精度训练
升级实例配置

详见性能优化。

服务器时区不对 / 时间不对（显示 UTC）

表现：服务器时间显示不正确，date 显示为 UTC，与本地时间不一致（如北京时间慢 8 小时）。

解决（安装 tzdata）：

bash

# 1) 安装 tzdata
apt-get update && apt-get install -y tzdata

# 2) 在安装过程中的交互界面按以下选择
# Geographic area: 6  (Asia)
# Time zone: 70      (Shanghai)

# 3) 验证
date

如果 tzdata 已安装但时区仍不对，可重新配置：

bash

dpkg-reconfigure tzdata
# Geographic area: 6  (Asia)
# Time zone: 70      (Shanghai)
date

参考命令（可选）：如需确认是否为系统时区配置问题，可执行以下命令：

bash

date
echo "$TZ"
cat /etc/timezone 2>/dev/null
ls -l /etc/localtime

注册奖励 / 邀请奖励未到账

问题：通过邀请链接注册后未收到注册奖励，或邀请好友后未收到邀请奖励。

原因：所有奖励均为人工审核发放，需被邀请人主动添加客服微信完成验证，非系统自动到账。

领取步骤：

被邀请人通过邀请链接或填写邀请码完成注册
被邀请人在平台完成实名认证
被邀请人添加客服微信，提供邀请人的手机号
客服核实双方为真实有效用户后，分别发放奖励：
- 被邀请人获得 10 元 注册代金券
- 邀请人获得 3 元 邀请代金券

常见未到账原因

被邀请人未添加客服微信进行验证
被邀请人未向客服提供邀请人信息
被邀请人未完成平台实名认证
注册时未填写邀请码或未通过邀请链接注册

如有疑问，请通过网站右下角联系在线客服，或添加客服微信咨询。

详见邀请好友、实名认证。

其他问题

如遇未涵盖的问题，请通过网站右下角联系在线客服获取帮助。

常见问题 ​

系统盘、数据盘、文件存储有什么区别？ ​

目录说明 ​

功能对比 ​

系统盘空间不足 ​

数据盘支持扩容和缩容吗？ ​

删除文件后空间未释放 ​

第一步：定位垃圾桶 ​

第二步：查看占用空间 ​

第三步：清理垃圾桶 ​

JupyterLab 无法打开 ​

无法调用 GPU ​

nvidia-smi 显示的 CUDA 版本与选择的不一致 ​

显存未释放 ​

连接失败 ​

程序运行中断 ​

内存不足 ​

服务器时区不对 / 时间不对（显示 UTC） ​

注册奖励 / 邀请奖励未到账 ​

其他问题 ​

常见问题

系统盘、数据盘、文件存储有什么区别？

目录说明

功能对比

系统盘空间不足

数据盘支持扩容和缩容吗？

删除文件后空间未释放

第一步：定位垃圾桶

第二步：查看占用空间

第三步：清理垃圾桶

JupyterLab 无法打开

无法调用 GPU

nvidia-smi 显示的 CUDA 版本与选择的不一致

显存未释放

连接失败

程序运行中断

内存不足

服务器时区不对 / 时间不对（显示 UTC）

注册奖励 / 邀请奖励未到账

其他问题