GPU选型

第一章：任务类型

根据常见任务，我们把适合的 GPU 分类总结如下：

任务类型	任务详情	推荐使用	总结
AI 推理（只是跑模型，不训练）	- 生成图片（Stable Diffusion、SDXL） - 跑大模型聊天（Llama、Qwen） - 跑别人已经训练好的模型	- RTX 3090 / 4090 / L40 - 中等显存的卡就够用	成本低、速度快，不需要超大显存，不需要多卡。
AI 训练（小规模任务）	- 课程作业 - 微调开源模型 - 训练小型 CNN / RNN - 简单 NLP 任务	4090 / 5090 / A100 40G；一般单卡够用。数据稍大可选 48GB 以上（如 A100 80G）。	单卡高性价比，兼顾训练与推理。
AI 训练（大模型 / 批量任务 / 高频训练）	- 深度学习课程大作业 - 研究项目 - SDXL、Llama、Qwen 级大型模型训练 - 大 batch-size	A100 80G、H100，或 4–8 卡多机训练	显存需求大、数据复杂，多卡分布式可显著提速。
视频处理 / 渲染 / 3D / 仿真	例如 Blender、视频转码、流媒体分析	4090 / 5090 / L40 / A40	显存要尽量大，否则渲染分辨率会受限。

显存 = GPU 用来存模型 + 数据 + 中间结果的空间，任务越大，显存消耗越高。

一句话判断

如果训练时出现 “CUDA out of memory”，就是显存不够，需要换更高显存或多卡。

① 如果你只是跑模型 / 轻量训练 → 选单卡即可

特点	适用型
成本最低；部署方便；绝大多数学生作业够用	4090 / 5090 / A100 40G

② 如果你要训练较大模型 → 2–4 卡最佳

为什么需要多卡？	适用型	最典型需求场景
分摊模型参数；扩大 batch size；训练速度显著提升	A100 80G × 2；4090 × 2（性价比高）	SDXL 大 batch 训练；研究项目；需要快速实验迭代

③ 如果你做科研级训练 → 4–8 卡

特点	适用型
适合训练 Llama / Qwen / 多模态大模型；大量数据；分布式实验	A100 80G × 4/8；H100 × 8（高端科研）

显存估算公式：显存需求 ≈ 参数量 × 精度系数 × (1 + 开销系数) 。例如FP16下7B模型基础参数需14GB，算上约30%开销约18GB 。应叠加激活值、KV缓存等临时数据。

多卡并行简介：当单卡显存无法满足时，可采用多卡分担计算和显存。一种常见方法是“模型并行”（如Tensor并行、流水线并行），将模型切分到各卡；另一种是“数据并行”，多卡各自存整模型，然后分批处理不同数据。NVLink互联可实现更快的数据交换。

典型误区对照：

通过上述分类和示例，您可依据自己任务的参数规模、精度要求和预算，从中快速选出合适的显卡类型与数量，避免租用误区，实现算力与成本的平衡。