云容笔谈·东方红颜系统重装后恢复指南:快速重建GPU深度学习环境

张开发
2026/4/7 10:16:09 15 分钟阅读

分享文章

云容笔谈·东方红颜系统重装后恢复指南:快速重建GPU深度学习环境
云容笔谈·东方红颜系统重装后恢复指南快速重建GPU深度学习环境最近不少朋友在折腾服务器或者工作站时可能都遇到过类似的情况系统出了点问题或者想换个更干净的环境结果一咬牙重装了系统。重装一时爽装完环境火葬场。尤其是那些依赖特定版本CUDA、cuDNN的深度学习项目比如咱们的“云容笔谈·东方红颜”环境一旦没了服务就停了想恢复起来真是头大。别慌这篇文章就是为你准备的。我会带你走一遍从一张白纸般的纯净系统到完整恢复“东方红颜”GPU服务环境的全过程。整个过程就像搭积木我们一块一块来目标是高效、准确让你少走弯路尽快让服务重新跑起来。咱们不扯那些虚的直接上干货照着步骤做就行。1. 准备工作与系统安装在开始动手之前咱们得先把“地基”打好。这一步的目标是获得一个干净、稳定的操作系统基础。1.1 选择与安装纯净操作系统首先你需要一个系统镜像。对于深度学习工作来说Ubuntu是一个被广泛支持且社区资源丰富的选择。我个人推荐使用Ubuntu 20.04 LTS或22.04 LTS版本它们都是长期支持版稳定性有保障而且大多数深度学习框架和驱动对这两个版本的支持都很好。你可以去Ubuntu官网下载对应的ISO镜像文件。安装过程很简单用U盘制作一个启动盘然后从U盘启动电脑进行安装。在安装类型那里如果你希望得到一个最干净的环境可以选择“清除整个磁盘并安装Ubuntu”。记得在安装过程中勾选“安装Ubuntu时下载更新”和“安装第三方软件…”这能帮你省去一些后续配置的麻烦。系统安装完成后第一件事就是打开终端更新一下软件包列表并升级已有的软件sudo apt update sudo apt upgrade -y这个操作可能需要一点时间完成后建议重启一次系统确保所有更新生效。1.2 基础开发环境搭建系统装好了接下来安装一些我们后续肯定会用到的工具。这些工具就像你的螺丝刀和扳手没有它们很多活没法干。sudo apt install -y build-essential cmake git wget curl software-properties-common简单解释一下这几个工具build-essential包含编译代码需要的基础工具比如gcc, g, make。cmake一个跨平台的安装编译工具很多C项目会用到。git版本控制工具用来拉取我们的项目代码。wget和curl命令行下载工具非常常用。software-properties-common方便我们添加和管理软件源。装好这些我们的基础工具箱就齐活了。2. GPU驱动与CUDA环境部署这是恢复深度学习环境最核心、也最容易出问题的一步。我们的目标是让系统正确识别你的NVIDIA显卡并安装匹配的CUDA工具包。2.1 安装NVIDIA显卡驱动首先我们需要知道自己的显卡型号并安装合适的驱动。一个比较省心的方法是使用Ubuntu自带的“附加驱动”工具或者用命令行安装。方法一使用ubuntu-drivers工具推荐这个方法会自动检测你的显卡并推荐合适的驱动版本。# 首先安装ubuntu-drivers工具 sudo apt install ubuntu-drivers-common -y # 查看推荐的驱动版本 ubuntu-drivers devices执行ubuntu-drivers devices后你会看到输出里有一行写着“recommended”的驱动版本号。比如nvidia-driver-550。然后安装它sudo apt install nvidia-driver-550 -y方法二使用官方PPA仓库如果你想安装较新的驱动可以添加NVIDIA的PPA仓库。# 添加Graphics Drivers PPA sudo add-apt-repository ppa:graphics-drivers/ppa -y sudo apt update # 同样可以先查看可用驱动版本 ubuntu-drivers devices # 然后安装推荐版本 sudo apt install nvidia-driver-550 -y安装完成后必须重启系统才能使驱动生效。sudo reboot重启后在终端输入nvidia-smi。如果看到类似下面的输出显示了你显卡的型号、驱动版本和CUDA版本那就恭喜你驱动安装成功了----------------------------------------------------------------------------- | NVIDIA-SMI 550.90.07 Driver Version: 550.90.07 CUDA Version: 12.4 | |--------------------------------------------------------------------------- | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | || | 0 NVIDIA GeForce ... On | 00000000:01:00.0 On | N/A | | 0% 45C P8 10W / 250W | 100MiB / 12288MiB | 0% Default | ---------------------------------------------------------------------------注意看CUDA Version那一行这里显示的是驱动支持的最高CUDA版本并不是你系统里已经安装的CUDA。我们接下来就要安装具体的CUDA工具包。2.2 安装CUDA ToolkitCUDA的版本需要和你的项目需求、以及后续要安装的深度学习框架版本匹配。对于“云容笔谈·东方红颜”这类较新的项目通常需要CUDA 11.7或11.8。这里我们以CUDA 11.8为例。不建议通过apt直接安装cuda包因为版本可能不匹配。最好去NVIDIA官网下载对应版本的runfile或deb安装包。这里使用deb网络安装方式比较方便。访问 NVIDIA CUDA Toolkit Archive 页面。选择CUDA 11.8.0。选择你的操作系统信息Linux, x86_64, Ubuntu, 22.04/20.04, deb(local)。页面会给出安装命令。对于Ubuntu 22.04命令通常如下wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-ubuntu2204-11-8-local_11.8.0-520.61.05-1_amd64.deb sudo dpkg -i cuda-repo-ubuntu2204-11-8-local_11.8.0-520.61.05-1_amd64.deb sudo cp /var/cuda-repo-ubuntu2204-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda-11-8重要提示安装过程可能会比较长并且会安装一个比较旧的NVIDIA驱动。如果系统提示要覆盖你刚装好的新驱动请选择保持当前已安装的驱动。安装完成后需要将CUDA添加到系统环境变量中。编辑你的~/.bashrc文件nano ~/.bashrc在文件末尾添加以下几行export PATH/usr/local/cuda-11.8/bin${PATH::${PATH}} export LD_LIBRARY_PATH/usr/local/cuda-11.8/lib64${LD_LIBRARY_PATH::${LD_LIBRARY_PATH}} export CUDA_HOME/usr/local/cuda-11.8保存退出后让配置生效source ~/.bashrc现在验证CUDA是否安装成功nvcc --version如果正确输出了CUDA编译器的版本信息如11.8那么CUDA就装好了。2.3 安装cuDNNcuDNN是NVIDIA提供的深度神经网络加速库。你需要注册一个NVIDIA开发者账号免费然后从官网下载对应CUDA 11.x版本的cuDNN。这里以cuDNN for CUDA 11.x为例。登录 NVIDIA cuDNN官网。选择与CUDA 11.8兼容的cuDNN版本例如8.9.x。下载三个deb文件通常名为libcudnn8、libcudnn8-dev、libcudnn8-samples。在存放deb文件的目录下执行以下命令安装sudo dpkg -i libcudnn8_8.x.x.x-1cuda11.8_amd64.deb sudo dpkg -i libcudnn8-dev_8.x.x.x-1cuda11.8_amd64.deb sudo dpkg -i libcudnn8-samples_8.x.x.x-1cuda11.8_amd64.deb请将8.x.x.x替换为你实际下载的版本号。安装完成后可以运行一个官方示例来验证cp -r /usr/src/cudnn_samples_v8/ $HOME cd ~/cudnn_samples_v8/mnistCUDNN make clean make ./mnistCUDNN如果输出Test passed!说明cuDNN安装和配置正确。3. Python与项目环境恢复GPU的底层环境搞定后现在来搭建Python这一层的应用环境。3.1 安装MinicondaPython环境管理强烈推荐使用Miniconda来管理Python环境。它可以让你为不同项目创建独立的、互不干扰的Python环境比如一个环境用PyTorch 1.13另一个用2.0非常方便。去Miniconda官网下载Linux版本的安装脚本然后用bash运行wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh安装过程中一直按回车阅读许可协议输入yes同意然后建议将conda初始化到你的bash中。安装完成后关闭当前终端重新打开一个新的你会发现命令行前面多了个(base)这说明conda的基础环境已经激活了。为了避免conda的基础环境干扰我们通常设置不在启动时自动激活base环境conda config --set auto_activate_base false再次关闭并重新打开终端(base)应该消失了。3.2 创建专属的Python虚拟环境现在我们为“东方红颜”项目创建一个专属环境。假设项目需要Python 3.9conda create -n yunrong python3.9 -y创建完成后激活这个环境conda activate yunrong你会看到命令行提示符变成了(yunrong)这表示你现在已经在这个虚拟环境里了之后所有pip安装的包都会装在这个独立的空间里。3.3 安装PyTorch与深度学习框架这是最关键的一步需要安装与CUDA 11.8匹配的PyTorch。前往 PyTorch官网选择对应的配置PyTorch Build: StableYour OS: LinuxPackage: 选择Conda或Pip都可以这里以Pip为例。Language: PythonCompute Platform: CUDA 11.8官网会给出安装命令。对于CUDA 11.8命令可能如下pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118安装完成后在Python中验证PyTorch是否能识别GPUpython -c import torch; print(fPyTorch版本: {torch.__version__}); print(fCUDA是否可用: {torch.cuda.is_available()}); print(fCUDA版本: {torch.version.cuda}); print(f显卡数量: {torch.cuda.device_count()}); print(f当前显卡: {torch.cuda.get_device_name(0)})如果输出显示CUDA是否可用: True并且正确打印了你的显卡型号那么恭喜PyTorch的GPU环境配置成功接下来根据“云容笔谈·东方红颜”项目的requirements.txt文件安装其他依赖。通常你需要先拉取项目代码。4. 拉取项目与依赖安装4.1 获取项目代码使用git克隆项目仓库这里用示例地址请替换为实际仓库地址cd ~ # 切换到你的工作目录 git clone https://your-git-repo.com/yunrong-bitan.git cd yunrong-bitan4.2 安装项目Python依赖在项目根目录下通常会有requirements.txt或pyproject.toml文件。使用pip安装所有依赖# 如果使用requirements.txt pip install -r requirements.txt # 或者如果项目使用poetry pip install poetry poetry install安装过程中可能会遇到一些依赖冲突这是正常现象。通常按照错误提示调整某些库的版本号即可解决。如果项目有特殊的、非PyPI的依赖比如一些本地编译的whl包需要根据项目文档单独处理。4.3 配置项目与启动服务依赖安装完毕后需要根据项目的具体配置进行设置模型文件检查项目是否需要下载预训练模型。模型文件通常较大可能需要从网盘或指定地址下载并放置到项目指定的models或checkpoints目录下。配置文件复制或修改项目中的配置文件如config.yaml,.env等根据你的硬件路径如模型文件路径进行调整。启动脚本查看项目的README找到启动命令。可能是类似这样的命令python app.py # 或者 python webui.py --listen --port 7860测试运行在项目根目录下执行启动命令。第一次运行可能会需要加载模型请耐心等待。观察终端输出如果没有报错并出现了类似“Running on local URL: http://127.0.0.1:7860”的提示说明服务启动成功。打开浏览器访问提示的地址如http://你的服务器IP:7860应该就能看到“云容笔谈·东方红颜”的Web界面了。5. 总结走完这一整套流程你的“云容笔谈·东方红颜”服务应该就已经在全新的系统上重新跑起来了。整个过程看似步骤不少但核心逻辑很清晰系统 - 驱动 - CUDA - Python环境 - 项目。每一步都稳扎稳打遇到问题就根据终端报错信息去搜索解决大部分坑网上都有现成的答案。这次重装恢复其实也是一个整理和优化环境的好机会。比如用conda管理环境把项目依赖明确写在requirements.txt里把重要的模型和配置文件做好备份。这样下次再遇到类似情况恢复起来只会更快。环境搭建是开发者的基本功多折腾几次就熟练了。希望这份指南能帮你节省时间如果过程中遇到其他具体问题也欢迎在社区里交流讨论。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章