Bộ dữ liệu arXiv

Tải về

rong gần 30 năm, ArXiv đã phục vụ công chúng và cộng đồng nghiên cứu bằng cách cung cấp quyền truy cập mở vào các bài báo học thuật, từ các ngành vật lý rộng lớn đến nhiều phân ngành khoa học máy tính cho đến mọi thứ ở giữa, bao gồm toán học, thống kê, kỹ thuật điện, sinh học định lượng, và kinh tế. Kho thông tin phong phú này cung cấp chiều sâu đáng kể, nhưng đôi khi áp đảo.

Trong những thời điểm có những thách thức toàn cầu đặc biệt này, việc khai thác hiệu quả những hiểu biết sâu sắc từ dữ liệu là điều cần thiết. Để giúp arXiv dễ tiếp cận hơn, chúng tôi giới thiệu một hệ thống mở, miễn phí trên Kaggle tới bộ dữ liệu arXiv mà máy có thể đọc được: kho lưu trữ 1,7 triệu bài báo, với các tính năng liên quan như tiêu đề bài viết, tác giả, danh mục, tóm tắt, toàn văn PDF, và hơn thế nữa.

Hy vọng của chúng tôi là trao quyền cho các trường hợp sử dụng mới có thể dẫn đến việc khám phá các kỹ thuật học máy phong phú hơn, kết hợp các tính năng đa phương thức cho các ứng dụng như phân tích xu hướng, công cụ đề xuất giấy, dự đoán danh mục, mạng đồng trích dẫn, xây dựng biểu đồ tri thức và giao diện tìm kiếm ngữ nghĩa .

Tập dữ liệu được cung cấp miễn phí thông qua các bộ chứa Google Cloud Storage ( thông tin thêm tại đây ). Hãy theo dõi để cập nhật hàng tuần cho bộ dữ liệu!

ArXiv là một nguồn tài nguyên được cộng đồng hỗ trợ, tài trợ hợp tác được thành lập bởi Paul Ginsparg vào năm 1991 và được Đại học Cornell duy trì và vận hành .

Việc phát hành bộ dữ liệu này đã được giới thiệu thêm trong một bài đăng trên blog của Kaggle tại đây .

ArXiv trên Kaggle

metadata

Bộ dữ liệu này là bản sao của dữ liệu ArXiv ban đầu. Do tập dữ liệu đầy đủ khá lớn (1,1 TB và đang tăng lên), nên tập dữ liệu này chỉ cung cấp một tệp siêu dữ liệu ở định jsondạng. Tệp này chứa một mục nhập cho mỗi bài báo, bao gồm:

id: ID ArXiv (có thể được sử dụng để truy cập bài báo, xem bên dưới)
submitter: Ai nộp bài
authors: Tác giả của bài báo
title: Tên bài báo
comments: Thông tin bổ sung, chẳng hạn như số trang và số liệu
journal-ref: Thông tin về tạp chí mà bài báo đã được xuất bản trong
doi: [ https://www.doi.org]( Số nhận dạng đối tượng kỹ thuật số)
abstract: Tóm tắt bài báo
categories: Danh mục / thẻ trong hệ thống ArXiv
versions: Lịch sử phiên bản

Bạn có thể truy cập trực tiếp từng bài báo trên ArXiv bằng các liên kết sau:

https://arxiv.org/abs/{id}: Trang cho bài báo này bao gồm phần tóm tắt và các liên kết khác
https://arxiv.org/pdf/{id}: Liên kết trực tiếp để tải xuống bản PDF

Truy cập hàng loạt

Toàn bộ tệp PDF có sẵn miễn phí trong bộ chứa GCS gs://arxiv-datasethoặc thông qua Google API ( tài liệu json và tài liệu xml ).

Bạn có thể sử dụng ví dụ gsutil để tải dữ liệu xuống máy cục bộ của mình.

# List files: gsutil cp gs://arxiv-dataset/arxiv/ # Download pdfs from March 2020: gsutil cp gs://arxiv-dataset/arxiv/arxiv/pdf/2003/ ./a_local_directory/ # Download all the source files gsutil cp -r gs://arxiv-dataset/arxiv/ ./a_local_directory/

Tần số cập nhật

Chúng tôi tự động cập nhật siêu dữ liệu cũng như nhóm GCS hàng tuần.

Giấy phép

Sự cống hiến cho miền công cộng chung của Creative Commons CC0 1.0 áp dụng cho siêu dữ liệu trong bộ dữ liệu này. Xem https://arxiv.org/help/license để biết thêm chi tiết và cấp phép trên các giấy tờ riêng lẻ.

Phạm vi ứng dụng

Kinh tế Giáo dục Công nghệ

Lĩnh vực nghiên cứu:

2.Khoa học kỹ thuật và công nghệ

Tên tác giả: Kaggle

Loại dữ liệu: Tổ chức

Ngày tạo: 12/06/2023 09:43

Ngày cập nhật: 12/06/2023 09:44

Phiên bản tài liệu: 1.0

Bản quyền: CC0: Public Domain

Nguồn:

Người đăng tải: Nguyễn Đại

Tổ chức đăng tải: Cục Thông tin Khoa học và Công nghệ Quốc gia

Tổng số lượt xem: 1653

Tổng số lượt tải về: 6

STT	Tên file dữ liệu	Loại file	Dung lượng	Thao tác

Bộ dữ liệu đánh giá chất lượng không khí và ô nhiễm

Mujtaba Mateen

590

Ngày tạo: 09/12/2024

Bộ dữ liệu này tập trung vào đánh giá chất lượng không khí tại các khu vực khác nhau. Nó bao gồm 5000 mẫu và ghi lại các yếu tố môi trường và nhân khẩu học quan trọng ảnh hưởng đến mức độ ô nhiễm.

Đăng tải bởi: Trần Đức Phương / Cục Thông tin Khoa học và Công nghệ Quốc gia

CSV

Bộ Dữ liệu Tiểu Hành Tinh của NASA JPL

Mir Sakhawat Hossain

487

Ngày tạo: 31/10/2024

Tác giả bộ dữ liệu là một nhà nghiên cứu Thiên văn học và Vật lý Thiên văn. Với nền tảng Toán học, tác giả có niềm đam mê với khoa học dữ liệu, máy học và học sâu. Ngày nay, Máy học đang giải quyết rất nhiều vấn đề trong lĩnh vực Thiên văn học và Vật lý Thiên văn. Tiểu hành tinh là một chủ đề thú vị cho các dự án Máy học như các bài toán phân loại và hồi quy.Tác giả đã thu thập bộ dữ liệu này từ Phòng Thí nghiệm Sức đẩy Phản lực (Jet Propulsion Laboratory) thuộc Viện Công nghệ California...

Đăng tải bởi: Trần Đức Phương / Cục Thông tin Khoa học và Công nghệ Quốc gia

ZIP

Bộ dữ liệu về việc sử dụng thiết bị di động và hành vi người dùng

vala khorasani

783

Ngày tạo: 08/10/2024

Bộ dữ liệu này cung cấp một phân tích toàn diện về các mẫu sử dụng thiết bị di động và phân loại hành vi người dùng. Nó bao gồm 700 mẫu dữ liệu người dùng, với các chỉ số như thời gian sử dụng ứng dụng, thời gian bật màn hình, mức tiêu hao pin, và lượng tiêu thụ dữ liệu. Mỗi mục được phân loại vào một trong năm nhóm hành vi người dùng, từ sử dụng ít đến sử dụng quá nhiều, cho phép thực hiện phân tích và mô hình hóa sâu sắc.

Đăng tải bởi: Trần Đức Phương / Cục Thông tin Khoa học và Công nghệ Quốc gia

CSV

Bộ dữ liệu về hình ảnh X-quang đốt sống

YASIR HUSSEIN SHAKIR

820

Ngày tạo: 16/04/2024

Bộ dữ liệu về hình ảnh X-quang đốt sống được thu thập tại địa phương tại Bệnh viện Đại học King Abdullah, Đại học Khoa học và Công nghệ Jordan, Irbid, Jordan. Bộ dữ liệu bao gồm 338 đối tượng (240 nữ, 98 nam). Số đối tượng có hình ảnh X quang bình thường là 71 (40 nữ, 31 nam). Số đối tượng được chẩn đoán trượt đốt sống là 79 người (49 nữ, 30 nam). Số đối tượng được chẩn đoán vẹo cột sống là 188 người (151 nữ, 37 nam). Các hình ảnh có sẵn ở kích thước ban đầu cũng như kích thước phù hợp với...

Đăng tải bởi: Trần Đức Phương / Cục Thông tin Khoa học và Công nghệ Quốc gia

ZIP

Bộ dữ liệu về các phần mềm độc hại Android được phát hiện dựa vào lưu lượng mạng

CHRISTIAN URCUQUI

708

Ngày tạo: 15/04/2024

Bộ dữ liệu căn cứ từ việc xem xét một số tính năng của lớp mạng làm cơ sở cho các mô hình học máy để có thể phát hiện thành công các ứng dụng phần mềm độc hại, sử dụng bộ dữ liệu mở từ cộng đồng nghiên cứu.

Đăng tải bởi: Trần Đức Phương / Cục Thông tin Khoa học và Công nghệ Quốc gia

CSV

Bộ dữ liệu Phân tích Chất lượng táo

NIDULA ELGIRIYEWITHANA

796

Ngày tạo: 21/02/2024

Bộ dữ liệu Phân tích Chất lượng táo

Đăng tải bởi: Nguyễn Xuân Tùng / Cục Thông tin Khoa học và Công nghệ Quốc gia

ZIP