ffc95f5c0297fbc10e7b972e154e3cc2.png
  • 下載適合的模型
     
    到這邊找一個
    記得點選 Leaderboard 的 tab,我在這邊用 [vicuna-13b-v1.3] 測試
     
    下載模型
    git clone https://huggingface.co/huggyllama/llama-13b
    git clone https://huggingface.co/lmsys/vicuna-13b-v1.3
     
    如果顯卡 RAM 不夠,可以用 7b 的
    git clone https://huggingface.co/lmsys/vicuna-7b-v1.1
  • 下載相關的 git
     
    git clone https://github.com/lm-sys/FastChat
  • 透過 Docker 安裝
    docker pull huggingface/transformers-pytorch-gpu:4.27.4
    
    然後進入 container
     docker run -it huggingface/transformers-pytorch-gpu:4.27.4 /bin/bash
    安裝 FastChat
    pip install fschat
  • 執行模型
     
    為了怕記憶體破稅造成 Out of memory,可以執行以下指令
    set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:32
     
    運行模型 (13b)
    python3 -m fastchat.serve.cli --model-path lmsys/vicuna-13b-v1.3
    
     
    運行模型 (7b)
    python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.3
    
     
    如果實在跑不動,或是沒有 GPU 也想玩,就可以在後面加上
    --device cpu
    改用 CPU 運行喔!
  • OpenAI WebAPI
    完成 CLI 的方式之後,要來測試 web api 的作法。目前提供的是相容於 OpenAI 的呼叫,而且可以作分散式,就是需要先把 Controller 跑起來,然後指定 Worker,如果有多個 Worker 的話,就為自動分配負載喔~
     
    # 指定 local,不然會跑去 OpenAI
    export OPENAI_API_KEY=YOUR_API_KEY
    export OPENAI_API_BASE=http://localhost:8000/v1
    
    # 執行 controller
    python -m fastchat.serve.controller --host 0.0.0.0 --port 21001 
    
    # 執行 Worker
    python -m fastchat.serve.model_worker \
    		--model-name 'gpt-3.5-turbo,text-davinci-003,text-embedding-ada-002,vicuna-13b' \
    		--model-path lmsys/vicuna-13b-v1.3 --host 0.0.0.0 --controller-address http://localhost:21001 --port 21002 --device cpu
    
    # 執行 API Server
    python -m fastchat.serve.openai_api_server --host 0.0.0.0 --port 8000 --controller-address http://localhost:21001
    
    這樣只要連線 http://localhost:8000 就可以囉!
Facebook 討論區載入中...