FPT Open Speech Dataset (FOSD) - Vietnamese
Bộ dữ liệu này bao gồm 25,921 bài phát biểu tiếng Việt đã được ghi âm (kèm theo bản ghi chép và các mốc thời gian bắt đầu và kết thúc của từng bài phát biểu) được tổng hợp thủ công từ 3 tập dữ liệu con (tổng cộng khoảng 30 giờ) do Tập đoàn FPT công bố công khai vào năm 2018.
Các bài phát biểu được lưu trữ ở định dạng *.mp3 trong khi file bản ghi chép là định dạng *.txt với mã hóa UTF-8.
Tổ chức
23/08/2024 13:45
23/08/2024 13:46
1.0
https://data.mendeley.com/datasets/k9sxg2twv4/4
Nguyễn Thái Nam
Viện Công nghệ Thông tin
950
82