AI算力服务使用FAQ

返回知识库

发布日期：2024年5月

作者：世纪云峰技术团队

分类：常见问题 / AI算力

阅读时间：约 15 分钟

一、GPU租用常见问题

Q1: 如何选择合适的GPU型号？

根据您的应用场景选择：

GPU型号	显存	适用场景	性价比
RTX 3090	24GB	中小模型训练、推理	高
RTX 4090	24GB	大模型推理、游戏AI	高
A100 40GB	40GB	大模型训练、科学计算	中
A100 80GB	80GB	超大模型训练、LLM	中
H100 80GB	80GB	前沿研究、大规模训练	低

Q2: GPU租用如何计费？

计费方式：

按小时计费：适合短期实验和开发测试
包月计费：适合长期训练任务，通常有折扣
按秒计费：精确到秒，用多少付多少

费用组成：

GPU实例费用
存储费用（按使用量）
网络流量费用（通常内网免费）

Q3: 如何连接到租用的GPU服务器？

连接方式：

# SSH连接（Linux/Mac）
ssh -p 端口号 root@服务器IP

# Windows使用PuTTY或MobaXterm
# 主机：服务器IP
# 端口：提供的SSH端口
# 用户名：root
# 密码：创建时设置的密码

# JupyterLab访问
# 浏览器访问：https://服务器IP:8888
# 输入Token或密码

Q4: 如何上传数据到GPU服务器？

多种上传方式：

# 方式1：SCP命令
scp -P 端口号 -r ./data root@服务器IP:/workspace/

# 方式2：rsync（支持断点续传）
rsync -avz --progress -e "ssh -p 端口号" ./data root@服务器IP:/workspace/

# 方式3：SFTP客户端
# 使用FileZilla、WinSCP等工具
# 协议：SFTP
# 主机：服务器IP
# 端口：SSH端口

# 方式4：对象存储同步
# 使用ossutil、coscmd等工具从云存储同步

二、环境配置问题

Q5: 如何检查CUDA是否正确安装？

# 查看CUDA版本
nvcc --version

# 查看NVIDIA驱动版本
nvidia-smi

# 查看GPU信息
nvidia-smi -q

# 测试CUDA程序
cd /usr/local/cuda/samples/1_Utilities/deviceQuery
make
./deviceQuery

# 预期输出：Result = PASS

Q6: PyTorch/TensorFlow无法识别GPU怎么办？

排查步骤：

检查PyTorch是否安装GPU版本

# 查看PyTorch版本
python -c "import torch; print(torch.__version__)"

# 检查CUDA是否可用
python -c "import torch; print(torch.cuda.is_available())"

# 查看GPU数量
python -c "import torch; print(torch.cuda.device_count())"

检查CUDA版本匹配

# PyTorch CUDA版本
python -c "import torch; print(torch.version.cuda)"

# 系统CUDA版本
nvcc --version

# 两者需要匹配或使用兼容版本

重新安装匹配的PyTorch版本

# CUDA 11.8
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

# CUDA 12.1
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

Q7: 如何创建Python虚拟环境？

# 使用venv
python -m venv myenv
source myenv/bin/activate  # Linux/Mac
myenv\Scripts\activate     # Windows

# 使用conda
conda create -n myenv python=3.10
conda activate myenv

# 导出环境
pip freeze > requirements.txt
conda env export > environment.yml

# 恢复环境
pip install -r requirements.txt
conda env create -f environment.yml

三、训练常见问题

Q8: 显存不足（OOM）如何解决？

解决方案：

减小批次大小（batch size）

使用梯度累积

# 梯度累积示例
accumulation_steps = 4
for i, batch in enumerate(dataloader):
    loss = model(batch) / accumulation_steps
    loss.backward()
    if (i + 1) % accumulation_steps == 0:
        optimizer.step()
        optimizer.zero_grad()

使用混合精度训练

# PyTorch AMP
from torch.cuda.amp import autocast, GradScaler
scaler = GradScaler()

with autocast():
    output = model(input)
    loss = criterion(output, target)

scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

使用DeepSpeed或FSDP进行模型并行

清理不必要的变量

import torch
torch.cuda.empty_cache()  # 清空缓存

Q9: 训练速度慢如何优化？

优化建议：

数据加载：

# 增加DataLoader workers
DataLoader(dataset, batch_size=32, num_workers=8, pin_memory=True)

# 使用SSD存储数据
# 将数据加载到内存（如果内存足够）

混合精度：使用FP16/BF16训练
编译模型：PyTorch 2.0+
```
model = torch.compile(model)
```

优化器：使用融合优化器

# 使用fused Adam
from torch.optim import AdamW
optimizer = AdamW(params, fused=True)

分布式训练：多卡并行

Q10: 如何保存和恢复训练状态？

# 保存检查点
checkpoint = {
    'epoch': epoch,
    'model_state_dict': model.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'loss': loss,
}
torch.save(checkpoint, 'checkpoint.pth')

# 恢复训练
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']
loss = checkpoint['loss']

# 自动保存最佳模型
if val_loss < best_loss:
    best_loss = val_loss
    torch.save(model.state_dict(), 'best_model.pth')

四、LLM大模型问题

Q11: 如何部署大语言模型进行推理？

部署方案：

vLLM：高吞吐推理服务

pip install vllm
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-2-7b-hf \
    --tensor-parallel-size 1

Text Generation Inference：HuggingFace方案

docker run --gpus all \
    -p 8080:80 \
    ghcr.io/huggingface/text-generation-inference:latest \
    --model-id meta-llama/Llama-2-7b-hf

FastChat：多模型服务框架

Q12: 模型量化有什么好处？

量化优势：

减少显存占用（INT4可减少75%）
提高推理速度
降低部署成本

# 使用bitsandbytes进行8bit量化
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-hf",
    load_in_8bit=True,
    device_map="auto"
)

# 使用GPTQ进行4bit量化
# 使用AutoGPTQ或llama.cpp

五、计费与账户

Q13: 如何查看使用情况和账单？

查看方式：

登录控制台 → 费用中心 → 账单详情
查看资源监控 → GPU使用率图表
设置预算告警，避免超额

Q14: 实例关机后还收费吗？

计费规则：

按量计费实例：关机后停止计算实例费用，但存储费用继续
包年包月实例：关机不影响计费，到期前持续计费
存储费用：数据盘按容量和使用时间计费

建议：长期不用的实例应释放而非仅关机

技术支持：如需AI算力服务支持，请联系世纪云峰科技
电话：156-2522-0012 | 邮箱：Roy.zhou@cloud-peak.com.cn