Bộ dữ liệu Phát hiện xâm nhập mạng, Nhóm ISG @ UNSW Canberra
Đây là một bộ dữ liệu phát hiện xâm nhập dành cho học thuật. Toàn bộ nội dung thuộc về các tác giả gốc: Tiến sĩ Nour Moustafa và Tiến sĩ Jill Slay. Các trích dẫn bài báo gốc của họ và tất cả các bài viết phù hợp khác được liệt kê trên trang UNSW-NB15.
Bộ dữ liệu đầy đủ cũng cung cấp các tệp pcap, BRO, và Argus cùng với tài liệu bổ sung.
Các phiên bản của bộ dữ liệu:
- V1: Các tệp CSV gốc được lấy từ nguồn gốc.
- V2: Đã làm sạch và chuyển đổi sang định dạng parquet.
- V3: Tổ chức lại để tiết kiệm dung lượng lưu trữ, chỉ giữ lại các tệp CSV gốc từ V1 và V2.
- V4: Cập nhật để loại bỏ các đặc tính gây nhiễu từ [bài thuyết trình] và [bài báo hội nghị].
Các sửa đổi của các tác giả đối với bộ tập huấn và kiểm tra ban đầu là rất nhỏ, nhằm giảm dung lượng lưu trữ và tăng hiệu suất cũng như độ tin cậy. Trong phiên bản hiện tại, bộ dữ liệu có thể được tải dễ dàng với pd.read_parquet(). Tất cả các kiểu dữ liệu đã được thiết lập đúng và không có bản ghi nào bị thiếu thông tin.
Việc đọc các tệp parquet yêu cầu fastparquet hoặc pyarrow. Phân tích dữ liệu khám phá (EDA) qua việc phân loại với các mô hình đơn giản đạt được 0.877 AUROC.