Phiên bản | v1.0.0 |
---|---|
Lần cập nhật cuối | 10/01/2018 |
Người thực hiện | Vũ Anh |
Tài liệu mô tả đề xuất về cấu trúc chuẩn của tập dữ liệu (corpus) đối với bài toán nhận dạng tiếng nói (ASR). Được áp dụng trong các thí nghiệm của underthesea
từ phiên bản 1.2.0
Các ví dụ mẫu: diadiem
corpus
Dữ liệu của bài toán nhận dạng tiếng nói được lưu trong một thư mục, gồm hai thư mục con train
và test
.
- Dữ liệu huấn luyện được lưu trong thư mục
train
- Dữ liệu kiểm thử được lưu trong thư mục
test
Cấu trúc thư mục
.
├── train
| ├── wav
| | ├── train_01.wav
| | ├── train_02.wav
| | └── train_03.wav
| ├── gender
| ├── speaker
| └── text
└── test
├── wav
| ├── test_01.wav
| ├── test_02.wav
| └── test_03.wav
├── gender
├── speaker
└── text
Mỗi thư mục train
và test
gồm thư mục con wav
, file gender
, file speaker
và file text
. Trong thư mục wav
có chứa các file âm thanh (với đuôi định dạng phổ biến là wav), chứa dữ liệu âm thanh.
File text
chứa nội dung của từng câu nói với tên file âm thanh tương ứng
Format: <audio_file_id>|<text content>
train_01|text content 01
train_02|text content 02
train_03|text content 03
train_04|text content 04
File speaker
chứa mô tả speaker id với câu nói tương ứng
Format: <speaker_id> <audio_file_id>
spk01 train_01
spk01 train_02
spk02 train_03
spk02 train_04
File gender
chứa thông tin về giới tính của speaker
Format: <speaker_id> <gender>
spk01 f
spk02 m
Ký hiệu:
f
(female): speaker có giới tính nữm
(male): speakder có giới tính nam