LLM 模型試作 | 老洪的 IT 學習系統

下載適合的模型

到這邊找一個

https://chat.lmsys.org/?arena

記得點選 Leaderboard 的 tab，我在這邊用 [vicuna-13b-v1.3] 測試

下載模型
```
git clone https://huggingface.co/huggyllama/llama-13b
git clone https://huggingface.co/lmsys/vicuna-13b-v1.3
```
如果顯卡 RAM 不夠，可以用 7b 的
```
git clone https://huggingface.co/lmsys/vicuna-7b-v1.1
```

下載相關的 git

git clone https://github.com/lm-sys/FastChat

透過 Docker 安裝

docker pull huggingface/transformers-pytorch-gpu:4.27.4

然後進入 container

 docker run -it huggingface/transformers-pytorch-gpu:4.27.4 /bin/bash

安裝 FastChat

pip install fschat

執行模型

為了怕記憶體破稅造成 Out of memory，可以執行以下指令
```
set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:32
```
運行模型 (13b)
```
python3 -m fastchat.serve.cli --model-path lmsys/vicuna-13b-v1.3
```
運行模型 (7b)
python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.3

如果實在跑不動，或是沒有 GPU 也想玩，就可以在後面加上

--device cpu

改用 CPU 運行喔!

OpenAI WebAPI

完成 CLI 的方式之後，要來測試 web api 的作法。目前提供的是相容於 OpenAI 的呼叫，而且可以作分散式，就是需要先把 Controller 跑起來，然後指定 Worker，如果有多個 Worker 的話，就為自動分配負載喔~

# 指定 local，不然會跑去 OpenAI
export OPENAI_API_KEY=YOUR_API_KEY
export OPENAI_API_BASE=http://localhost:8000/v1

# 執行 controller
python -m fastchat.serve.controller --host 0.0.0.0 --port 21001 

# 執行 Worker
python -m fastchat.serve.model_worker \
		--model-name 'gpt-3.5-turbo,text-davinci-003,text-embedding-ada-002,vicuna-13b' \
		--model-path lmsys/vicuna-13b-v1.3 --host 0.0.0.0 --controller-address http://localhost:21001 --port 21002 --device cpu

# 執行 API Server
python -m fastchat.serve.openai_api_server --host 0.0.0.0 --port 8000 --controller-address http://localhost:21001

這樣只要連線 http://localhost:8000 就可以囉!

Facebook 討論區載入中...

步驟