Mô hình ngôn ngữ lớn được tinh chỉnh cho tiếng Việt dựa trên mô hình Llama 2.
Mục đích của project này là để thực nghiệm các mô hình LLM cho tiếng Việt, bắt đầu với các bước fine-tuning và sẽ mở rộng đến pre-training nếu resource cho phép.
Mô hình finetuned trên Llama 2 7B (https://huggingface.co/meta-llama/Llama-2-7b-hf) với dữ liệu chứa 20k câu hỏi đáp. Đây là bước thực nghiệm ban đầu và sẽ mở rộng tiếp sau đó.
Checkpoint của model có thể tìm thấy tại HuggingFace ở đây.
-
Clone the repository:
git clone https://github.com/ngoanpv/llama2_vietnamese cd llama2_vietnamese
-
Cài đặt các packages cần thiết:
pip install -r requirements.txt
-
Khởi động FastAPI server, hiện tại có 2 APIs:
python serving/fastapi/main.py
-
Sử dụng script dưới đây để test 2 API trên:
python scripts/request_fastapi.py
- Fine tune trên bộ dữ liệu lớn hơn
- Thử nghiệm điều chỉnh tokenizer và các bước cho pre-training