Bộ dữ liệu arXiv

rong gần 30 năm, ArXiv đã phục vụ công chúng và cộng đồng nghiên cứu bằng cách cung cấp quyền truy cập mở vào các bài báo học thuật, từ các ngành vật lý rộng lớn đến nhiều phân ngành khoa học máy tính cho đến mọi thứ ở giữa, bao gồm toán học, thống kê, kỹ thuật điện, sinh học định lượng, và kinh tế. Kho thông tin phong phú này cung cấp chiều sâu đáng kể, nhưng đôi khi áp đảo.

Trong những thời điểm có những thách thức toàn cầu đặc biệt này, việc khai thác hiệu quả những hiểu biết sâu sắc từ dữ liệu là điều cần thiết. Để giúp arXiv dễ tiếp cận hơn, chúng tôi giới thiệu một hệ thống mở, miễn phí trên Kaggle tới bộ dữ liệu arXiv mà máy có thể đọc được: kho lưu trữ 1,7 triệu bài báo, với các tính năng liên quan như tiêu đề bài viết, tác giả, danh mục, tóm tắt, toàn văn PDF, và hơn thế nữa.

Hy vọng của chúng tôi là trao quyền cho các trường hợp sử dụng mới có thể dẫn đến việc khám phá các kỹ thuật học máy phong phú hơn, kết hợp các tính năng đa phương thức cho các ứng dụng như phân tích xu hướng, công cụ đề xuất giấy, dự đoán danh mục, mạng đồng trích dẫn, xây dựng biểu đồ tri thức và giao diện tìm kiếm ngữ nghĩa .

Tập dữ liệu được cung cấp miễn phí thông qua các bộ chứa Google Cloud Storage ( thông tin thêm tại đây ). Hãy theo dõi để cập nhật hàng tuần cho bộ dữ liệu!

ArXiv là một nguồn tài nguyên được cộng đồng hỗ trợ, tài trợ hợp tác được thành lập bởi Paul Ginsparg vào năm 1991 và được Đại học Cornell duy trì và vận hành .

Việc phát hành bộ dữ liệu này đã được giới thiệu thêm trong một bài đăng trên blog của Kaggle tại đây .

ArXiv trên Kaggle

metadata

Bộ dữ liệu này là bản sao của dữ liệu ArXiv ban đầu. Do tập dữ liệu đầy đủ khá lớn (1,1 TB và đang tăng lên), nên tập dữ liệu này chỉ cung cấp một tệp siêu dữ liệu ở định jsondạng. Tệp này chứa một mục nhập cho mỗi bài báo, bao gồm:

  • id: ID ArXiv (có thể được sử dụng để truy cập bài báo, xem bên dưới)
  • submitter: Ai nộp bài
  • authors: Tác giả của bài báo
  • title: Tên bài báo
  • comments: Thông tin bổ sung, chẳng hạn như số trang và số liệu
  • journal-ref: Thông tin về tạp chí mà bài báo đã được xuất bản trong
  • doi: [ https://www.doi.org]( Số nhận dạng đối tượng kỹ thuật số)
  • abstract: Tóm tắt bài báo
  • categories: Danh mục / thẻ trong hệ thống ArXiv
  • versions: Lịch sử phiên bản

Bạn có thể truy cập trực tiếp từng bài báo trên ArXiv bằng các liên kết sau:

  • https://arxiv.org/abs/{id}: Trang cho bài báo này bao gồm phần tóm tắt và các liên kết khác
  • https://arxiv.org/pdf/{id}: Liên kết trực tiếp để tải xuống bản PDF

Truy cập hàng loạt

Toàn bộ tệp PDF có sẵn miễn phí trong bộ chứa GCS gs://arxiv-datasethoặc thông qua Google API ( tài liệu json và tài liệu xml ).

Bạn có thể sử dụng ví dụ gsutil để tải dữ liệu xuống máy cục bộ của mình.

# List files: gsutil cp gs://arxiv-dataset/arxiv/ # Download pdfs from March 2020: gsutil cp gs://arxiv-dataset/arxiv/arxiv/pdf/2003/ ./a_local_directory/ # Download all the source files gsutil cp -r gs://arxiv-dataset/arxiv/ ./a_local_directory/

Tần số cập nhật

Chúng tôi tự động cập nhật siêu dữ liệu cũng như nhóm GCS hàng tuần.

Giấy phép

Sự cống hiến cho miền công cộng chung của Creative Commons CC0 1.0 áp dụng cho siêu dữ liệu trong bộ dữ liệu này. Xem https://arxiv.org/help/license để biết thêm chi tiết và cấp phép trên các giấy tờ riêng lẻ.

 

Kaggle
Tổ chức
12/06/2023 09:43
12/06/2023 09:44
1.0
CC0: Public Domain
Nguyễn Đại
Cục Thông tin Khoa học và Công nghệ Quốc gia
1411
6
STT Tên file dữ liệu Loại file Dung lượng Thao tác
Image