
下載適合的模型
到這邊找一個
記得點選 Leaderboard 的 tab,我在這邊用 [vicuna-13b-v1.3] 測試
下載模型
git clone https://huggingface.co/huggyllama/llama-13b git clone https://huggingface.co/lmsys/vicuna-13b-v1.3
如果顯卡 RAM 不夠,可以用 7b 的
git clone https://huggingface.co/lmsys/vicuna-7b-v1.1
下載相關的 git
git clone https://github.com/lm-sys/FastChat
透過 Docker 安裝
docker pull huggingface/transformers-pytorch-gpu:4.27.4
然後進入 container
docker run -it huggingface/transformers-pytorch-gpu:4.27.4 /bin/bash
安裝 FastChat
pip install fschat
執行模型
為了怕記憶體破稅造成 Out of memory,可以執行以下指令
set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:32
運行模型 (13b)
python3 -m fastchat.serve.cli --model-path lmsys/vicuna-13b-v1.3
運行模型 (7b)
python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.3
如果實在跑不動,或是沒有 GPU 也想玩,就可以在後面加上
--device cpu
改用 CPU 運行喔!
OpenAI WebAPI
完成 CLI 的方式之後,要來測試 web api 的作法。目前提供的是相容於 OpenAI 的呼叫,而且可以作分散式,就是需要先把 Controller 跑起來,然後指定 Worker,如果有多個 Worker 的話,就為自動分配負載喔~
# 指定 local,不然會跑去 OpenAI export OPENAI_API_KEY=YOUR_API_KEY export OPENAI_API_BASE=http://localhost:8000/v1 # 執行 controller python -m fastchat.serve.controller --host 0.0.0.0 --port 21001 # 執行 Worker python -m fastchat.serve.model_worker \ --model-name 'gpt-3.5-turbo,text-davinci-003,text-embedding-ada-002,vicuna-13b' \ --model-path lmsys/vicuna-13b-v1.3 --host 0.0.0.0 --controller-address http://localhost:21001 --port 21002 --device cpu # 執行 API Server python -m fastchat.serve.openai_api_server --host 0.0.0.0 --port 8000 --controller-address http://localhost:21001
這樣只要連線 http://localhost:8000 就可以囉!