CUDA toolkit 其實不太好稿,而且容易死掉,紀錄一下過程吧!
  • 首先確定你有 nvidia 的 driver 且安裝完成
    lspci | grep -i nvidia
    
     
    如果能 grep 到就會像這樣
    01:00.0 VGA compatible controller: NVIDIA Corporation TU104 [GeForce RTX 2070 SUPER] (rev a1)
    01:00.1 Audio device: NVIDIA Corporation TU104 HD Audio Controller (rev a1)
    01:00.2 USB controller: NVIDIA Corporation TU104 USB 3.1 Host Controller (rev a1)
    01:00.3 Serial bus controller [0c80]: NVIDIA Corporation TU104 USB Type-C UCSI Controller (rev a1)
    
  • 確定你的 OS Arch
    uname -m && cat /etc/*release
    看輸出就確定,比如以下,就是 x86_64
    x86_64
    DISTRIB_ID=Ubuntu
    DISTRIB_RELEASE=20.04
    DISTRIB_CODENAME=focal
    
  • 看一下 gcc 是否安裝好了
    gcc --version
    同時把相關的 header 都裝一下
    apt-get install linux-headers-$(uname -r)
  • 到這邊找到適合的 OS 版本
  • 這是我的選擇方式,最後會出現一堆指令,把他打進去就是了!
    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
    sudo dpkg -i cuda-keyring_1.0-1_all.deb
    sudo apt-get update
    sudo apt-get -y install cuda
    完成後順便把相關的 lib 安裝一下
    apt-get install nvidia-gds
    apt install nvidia-cuda-toolkit
    
    apt-get install -y cuda-drivers
    apt-get install -y nvidia-driver-550-open
    apt-get install -y cuda-drivers-550
  • 完成後用 nvidia-smi 測試一下,確認版本
     
  • 安裝 nvidia-docker
    apt-get install -y nvidia-docker2
    systemctl restart docker
    
  • 移除 CUDA
    sudo apt-get remove -y --purge '^nvidia-.*'
    sudo apt-get remove -y --purge '^libnvidia-.*'
    sudo apt-get remove -y --purge '^cuda-.*'
    apt-get autoremove
    apt-get autoclean
    cd /usr/local/cuda-12.4/bin
    ./cuda-uninstaller
    /usr/bin/nvidia-uninstall
    rm -rf /usr/local/cuda
Facebook 討論區載入中...