LLM 模型試作
  • 3,265 views,
  • 2023-07-17,
  • 上傳者: Kuann Hung,
  •  0
ffc95f5c0297fbc10e7b972e154e3cc2.png
步驟
1.
下載適合的模型
 
到這邊找一個
記得點選 Leaderboard 的 tab,我在這邊用 [vicuna-13b-v1.3] 測試
 
下載模型
git clone https://huggingface.co/huggyllama/llama-13b
git clone https://huggingface.co/lmsys/vicuna-13b-v1.3
 
如果顯卡 RAM 不夠,可以用 7b 的
git clone https://huggingface.co/lmsys/vicuna-7b-v1.1
2.
下載相關的 git
 
git clone https://github.com/lm-sys/FastChat
3.
透過 Docker 安裝
docker pull huggingface/transformers-pytorch-gpu:4.27.4
然後進入 container
 docker run -it huggingface/transformers-pytorch-gpu:4.27.4 /bin/bash
安裝 FastChat
pip install fschat
4.
執行模型
 
為了怕記憶體破稅造成 Out of memory,可以執行以下指令
set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:32
 
運行模型 (13b)
python3 -m fastchat.serve.cli --model-path lmsys/vicuna-13b-v1.3
 
運行模型 (7b)
python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.3
 
如果實在跑不動,或是沒有 GPU 也想玩,就可以在後面加上
--device cpu
改用 CPU 運行喔!
5.
OpenAI WebAPI
完成 CLI 的方式之後,要來測試 web api 的作法。目前提供的是相容於 OpenAI 的呼叫,而且可以作分散式,就是需要先把 Controller 跑起來,然後指定 Worker,如果有多個 Worker 的話,就為自動分配負載喔~
 
# 指定 local,不然會跑去 OpenAI
export OPENAI_API_KEY=YOUR_API_KEY
export OPENAI_API_BASE=http://localhost:8000/v1

# 執行 controller
python -m fastchat.serve.controller --host 0.0.0.0 --port 21001 

# 執行 Worker
python -m fastchat.serve.model_worker \
		--model-name 'gpt-3.5-turbo,text-davinci-003,text-embedding-ada-002,vicuna-13b' \
		--model-path lmsys/vicuna-13b-v1.3 --host 0.0.0.0 --controller-address http://localhost:21001 --port 21002 --device cpu

# 執行 API Server
python -m fastchat.serve.openai_api_server --host 0.0.0.0 --port 8000 --controller-address http://localhost:21001
這樣只要連線 http://localhost:8000 就可以囉!
Facebook 討論區載入中...
資料夾 :
發表時間 :
2023-07-17 08:42:26
觀看數 :
3,265
發表人 :
Kuann Hung
部門 :
老洪的 IT 學習系統
QR Code :