Llama2 Vietnamese

Mô hình ngôn ngữ lớn được tinh chỉnh cho tiếng Việt dựa trên mô hình Llama 2.

Giới thiệu

Mục đích của project này là để thực nghiệm các mô hình LLM cho tiếng Việt, bắt đầu với các bước fine-tuning và sẽ mở rộng đến pre-training nếu resource cho phép.

Tiến độ hiện tại

30/08/2023

Mô hình finetuned trên Llama 2 7B (https://huggingface.co/meta-llama/Llama-2-7b-hf) với dữ liệu chứa 20k câu hỏi đáp. Đây là bước thực nghiệm ban đầu và sẽ mở rộng tiếp sau đó.

Model Checkpoint

Checkpoint của model có thể tìm thấy tại HuggingFace ở đây.

Ví dụ về kết quả của model

Các bước để bắt đầu

Clone the repository:

git clone https://github.com/ngoanpv/llama2_vietnamese
cd llama2_vietnamese

Cài đặt các packages cần thiết:
```
pip install -r requirements.txt
```
Khởi động FastAPI server, hiện tại có 2 APIs:
```
python serving/fastapi/main.py
```
Sử dụng script dưới đây để test 2 API trên:
```
python scripts/request_fastapi.py
```

Kế hoạch tiếp theo

Fine tune trên bộ dữ liệu lớn hơn
Thử nghiệm điều chỉnh tokenizer và các bước cho pre-training

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_vi.md

README_vi.md

Llama2 Vietnamese

Giới thiệu

Tiến độ hiện tại

30/08/2023

Model Checkpoint

Ví dụ về kết quả của model

Các bước để bắt đầu

Kế hoạch tiếp theo

Files

README_vi.md

Latest commit

History

README_vi.md

File metadata and controls

Llama2 Vietnamese

Giới thiệu

Tiến độ hiện tại

30/08/2023

Model Checkpoint

Ví dụ về kết quả của model

Các bước để bắt đầu

Kế hoạch tiếp theo