Phát hiện phần mềm độc hại có thể thực thi

Giới thiệu về bộ dữ liệu
Nhìn vào tình hình hiện tại xung quanh chúng ta, rõ ràng là cuộc chiến tranh thế giới tiếp theo sẽ diễn ra trong không gian mạng.
Các nhà nghiên cứu càng thành công trong việc bẻ khóa mã độc, mã độc phức tạp hơn càng xuất hiện nhiều hơn, trốn tránh tất cả các loại cơ chế phát hiện được thiết lập để chống lại nó. Với suy nghĩ đó, tác giả đã quyết định tạo ra một phương pháp máy học để phát hiện tệp thực thi độc hại.

Nội dung
Bộ dữ liệu chứa các tính năng được trích xuất từ ​​các tệp thực thi cửa sổ độc hại và không độc hại.
Tác giả đã tạo tệp đào tạo này bằng cách sử dụng các tính năng kết hợp (các cuộc gọi thập lục phân nhị phân + DLL) từ các tệp thực thi của windows.
Bộ dữ liệu bao gồm tổng số 373 mẫu, trong đó 301 mẫu là tệp độc hại trong khi 72 mẫu còn lại là không độc hại.
Bộ dữ liệu bị mất cân bằng với các mẫu phần mềm độc hại nhiều hơn các mẫu thông thường.
Có 531 tính năng được biểu thị từ F_1 đến F_531 và một cột nhãn cho biết tệp đó là độc hại hay không độc hại.
Vì việc biểu diễn các tên tính năng thập lục phân nhị phân rất khó nên chúng được biểu diễn dưới dạng F_1, F_2,.., v.v., điều tương tự cũng áp dụng cho các cuộc gọi DLL được bao gồm trong đó. Một số tính năng trong số 531 tính năng có thể bị loại bỏ vì chúng có rất ít tầm quan trọng, nhiều tính năng hơn sẽ được khám phá như một phần của kỹ thuật tính năng.
Nhãn cột sẽ giữ giá trị thực của tệp thực thi nếu đó là phần mềm độc hại hay không.

PIYUSH RUMAO
Tổ chức
14/04/2023 14:35
02/06/2023 14:17
1.0
CC0: Public Domain
https://www.kaggle.com/datasets/piyushrumao/malware-executable-detection
Trần Đức Phương
Cục Thông tin, Thống Kê
352
1
STT Tên file dữ liệu Loại file Dung lượng Thao tác
1 uci_malware_detection.csv CSV 403 KB
Image