Phát hiện gian lận trong giao dịch thẻ tín dụng
Bộ dữ liệu chứa các giao dịch được thực hiện bằng thẻ tín dụng vào tháng 9 năm 2013 bởi chủ thẻ Châu Âu.
Bộ dữ liệu này trình bày các giao dịch xảy ra trong hai ngày, trong đó chúng tôi có 492 vụ gian lận trong tổng số 284.807 giao dịch. Bộ dữ liệu rất mất cân bằng, loại tích cực (lừa đảo) chiếm 0,172% trong tất cả các giao dịch.
Bộ dữ liệu đã được thu thập và phân tích trong quá trình hợp tác nghiên cứu giữa Worldline và Machine Learning Group (//mlg.ulb.ac.be) của ULB (Đại học Libre de Bruxelles) về khai thác dữ liệu lớn và phát hiện gian lận.
Nó chỉ chứa các biến số đầu vào là kết quả của phép biến đổi PCA. Thật không may, do vấn đề bảo mật, chúng tôi không thể cung cấp các tính năng ban đầu và thông tin cơ bản khác về dữ liệu. Các tính năng V1, V2, … V28 là các thành phần chính có được với PCA, các tính năng duy nhất chưa được chuyển đổi với PCA là 'Thời gian' và 'Số lượng'. Tính năng 'Thời gian' chứa số giây đã trôi qua giữa mỗi giao dịch và giao dịch đầu tiên trong tập dữ liệu. Tính năng 'Số tiền' là Số tiền giao dịch, tính năng này có thể được sử dụng cho việc học nhạy cảm với chi phí phụ thuộc vào ví dụ. Tính năng 'Lớp' là biến phản hồi và nó nhận giá trị 1 trong trường hợp gian lận và 0 nếu không.
Với tỷ lệ mất cân bằng của lớp, chúng tôi khuyên bạn nên đo độ chính xác bằng cách sử dụng Khu vực Dưới Đường cong Thu hồi Chính xác (AUPRC). Độ chính xác của ma trận nhầm lẫn không có ý nghĩa đối với phân loại không cân bằng.