Bộ dữ liệu Hỏi và đáp về tuyển sinh của các cơ sở giáo dục đại học

Quá trình thu thập dữ liệu cho bộ dữ liệu bắt đầu bằng việc thu thập dữ liệu từ  từ trang web của một cơ sở giáo dục đại học được chọn, thu thập các dữ liệu liên quan đến chủ đề tuyển sinh của các cơ sở giáo dục đại học trong khoảng thời gian từ tháng 7 đến tháng 9 năm 2023. Điều này tạo ra một bộ dữ liệu thô chủ yếu tập trung vào nội dung liên quan đến tuyển sinh. Sau đó, các quy trình làm sạch và tổ chức dữ liệu tỉ mỉ đã được thực hiện để tinh chỉnh bộ dữ liệu. Dữ liệu gốc, ở dạng thô trước khi được chú thích thành định dạng hỏi và đáp, chủ yếu là bằng tiếng Indonesia. Tiếp theo, một quy trình chú thích toàn diện đã được tiến hành để làm giàu bộ dữ liệu với thông tin cụ thể liên quan đến tuyển sinh, biến nó thành dữ liệu thứ cấp. Cả dữ liệu sơ cấp và thứ cấp chủ yếu vẫn ở ngôn ngữ tiếng Indonesia. Để nâng cao chất lượng dữ liệu, chúng tôi đã thêm các bộ lọc để loại bỏ hoặc loại trừ: 1) dữ liệu không bằng tiếng Indonesia, 2) dữ liệu không liên quan đến chủ đề tuyển sinh, và 3) các mục bị trùng lặp. Sự chọn lọc tỉ mỉ này đã dẫn đến việc tạo ra một bộ dữ liệu cuối cùng, được chuẩn bị cẩn thận và hiện sẵn sàng cho nghiên cứu và phân tích trong lĩnh vực tuyển sinh giáo dục đại học."

Tổ chức
23/10/2024 08:39
23/10/2024 08:39
1.0
CC0: Public Domain
https://www.kaggle.com/datasets/jocelyndumlao/q-and-a-for-admission-of-higher-education-institution
Trần Đức Phương
Cục Thông tin Khoa học và Công nghệ Quốc gia
217
11
STT Tên file dữ liệu Loại file Dung lượng Thao tác
1 Q&AforAdmission.zip ZIP 33 KB
Image