Dataset Nhận Dạng Khuông Mặt AI

1. CASIA-WebFace

Dataset có kích thước tầm 4.1G, bao gồm 494,414 hình khuôn mặt của 10,575 người thật được thu thập trên web và đã gán nhãn đầy đủ. Dataset này phục vụ cho bài toán face verification và face identification .

https://archive.org/download/NudeNet_classifier_dataset_v1/NudeNet_Classifier_train_data_x320.zip

Đối với các bạn muốn mì ăn liền, thì có thể tải pretrain model NudeNet trên pip về rồi thử.

2. MS-Celeb-1M

Tập dataset khuôn mặt gốc được microsoft công bố năm 2016 phục vụ cho bài toán nhận diện khuôn mặt. Tập này chứa tầm 10 triệu ảnh của 100,000 cá nhân khác nhau, đa số là các diễn viên Hollywood (nên có thêm từ Celeb - viết tắt của celebrity).

Nguồn microsoft.com

Hiện nay dataset này đã bị xóa bỏ khỏi website gốc msceleb.org và dự án này của microsoft đã bị kết thúc vì một lý do nào đó.

Link download: https://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

Các bạn cân nhắc kỹ trước khi download. Do không phải là link chính chủ

Dữ liệu gốc của MS-Celeb-1M có nhiều hình ảnh trùng, gán sai. Có nhiều task đã được implement để làm sạch dataset trên. Một trong những task mình thấy khá ổn là

https://github.com/EB-Dodo/C-MS-Celeb

Tác giả đã xử lý, rút trích, giữ lại tầm 6.5 triệu hình của 94,682 người nổi tiếng

3. VGG Face và VGG Face2

Dataset bao gồm 494,414 hình khuôn mặt của 10,575 người. Các bạn có thể download tại link chính chủ

https://www.robots.ox.ac.uk/~vgg/data/vgg_face/vgg_face_dataset.tar.gz

tập VGG Face2 đã bị xóa trên trang chủ do vi phạm bản quyền. Nên hiện thời không có link chính chủ

WebFace
Tổ chức
24/07/2023 09:55
24/07/2023 09:55
1.0
CC0: Public Domain
CASIA-WebFace
Hoàng Mạnh Tuấn
Cục Thông tin Khoa học và Công nghệ Quốc gia
5997
11
STT Tên file dữ liệu Loại file Dung lượng Thao tác
Image