저널 보충 자료의 지구화학적 데이터 세트를 자동으로 검색하고 대조하기 위한 리소스입니다.
과학 데이터 9권, 기사 번호: 724(2022) 이 기사 인용
3461 액세스
1 인용
55 알트메트릭
측정항목 세부정보
이 기사에서는 웹 스크래핑 코드를 사용하여 Figshare 저장소에서 지구화학적, 지구연대학적 데이터를 자동으로 검색, 추출 및 대조하는 리소스를 제공합니다. 공간적, 시간적 진화, 지구의 고체와 표면 저장소 사이의 상호관계 등 지구 진화에 관한 근본적인 질문에 답하기 위해 연구자들은 글로벌 지구화학적 데이터세트를 활용해야 합니다. 게시되는 데이터의 양으로 인해 이러한 데이터 세트는 빠르게 오래된 것이 됩니다. 우리는 연구자들이 기존에 출판된 데이터로부터 자신의 데이터베이스를 신속하게 선별하고 업데이트할 수 있는 리소스를 제시합니다. 우리는 오픈 소스 Python 코드를 사용하여 애플리케이션 프로그래밍 인터페이스를 사용하여 저널 보충 파일에 대한 Figshare 저장소를 웹 스크레이핑하므로 몇 분 안에 수백 개의 보충 파일과 메타데이터를 수집하고 다운로드할 수 있습니다. 이 웹 스크래핑 도구의 사용은 여기에서 150,000개 이상의 분석에 대한 지르콘 지리연대기 및 화학 데이터베이스의 대조를 통해 시연됩니다. 데이터베이스는 다른 출판된 지르콘 편집의 경향을 일관되게 재현합니다. Figshare 데이터 파일의 자동 수집을 위한 리소스를 제공하면 데이터 공유 및 재사용이 장려됩니다.
측정
지르콘의 나이와 화학
기술 유형
질량 분석
지구과학 연구는 지구 과정을 심층적으로 조사하기 위해 점점 더 지구화학적, 지구연대학 또는 동위원소 데이터에 의존하고 있습니다. 통계적으로 건전한 장기적 추세를 확립하고 지구의 대규모 다중 시스템 변화를 밝히기 위해 빅데이터를 활용하는 기사가 점점 늘어나고 있습니다1,2,3,4,5,6,7,8,9,10,11. 이는 대규모 데이터 세트(하루에 수백 개의 알려지지 않은 분석)를 신속하게 생성할 수 있는 계측기 개발(주로 LA-ICP-MS(레이저 제거 유도 결합 질량 분석법) 분야)과 일치하여 데이터 생성 및 게시 속도(그림 1)
(a) 2017년 Puetz 외 4가 편집한 지르콘 데이터베이스에는 400,000개 이상의 분석이 포함되어 있습니다. (b) Roberts와 Spencer5가 편집한 Zircon Hf 데이터베이스. (c) 1995년부터 2020년 사이에 "Zircon LA-ICP-MS"라는 문구가 포함된 출판물에 대한 Web of Science 데이터. 2015년부터 2020년까지(즉, Roberts and Spencer 데이터베이스가 게시된 이후) 2300개 이상의 지르콘 LA-ICP-MS 기사가 게재되었습니다.
지질학 연구에서 데이터 생성 및 공개된 데이터세트의 사용이 증가함에 따라 전 세계 지르콘 지구연대기 및 지구화학적 데이터베이스가 공개되었습니다. 많은 지르콘(또는 기타 광물 단계) 지질연대, 동위원소 또는 지구화학적 데이터베이스는 단일 공개 개체로 발생하며, 이는 데이터 생성 속도를 고려할 때 빠르게 구식입니다. 예를 들어, Puetz12 지르콘 U-Pb 데이터베이스가 2017년에 편집된 이후 "zircon LA-ICP-MS"가 포함된 1600개 이상의 기사가 출판되었습니다(그림 1). 사용할 수 있는 영구 저장소(예: AusGeochem, EarthChem, GEOROC, StratDB)의 수가 점점 늘어나고 있지만 저널 기사의 보충 데이터는 데이터베이스 및 새로운 출판물을 만드는 데 사용되는 지구연대학적, 지구화학적 데이터의 중요한 소스로 남아 있습니다. 통계 데이터 처리의 견고성을 높이고 지구과학 문제를 해결하기 위한 기계 학습 사용에 대한 탐구를 추진하고 있음에도 불구하고 데이터 생성의 급격한 증가는 데이터 수집 프로세스를 자동화하기 위한 연구 발표와 일치하지 않았습니다4,13,14.
학술 저널 출판사는 대규모 저장소에 호스팅되는 보충 데이터 파일을 구현하고 있습니다. 예를 들어 Mendeley Data는 Elsevier Journals의 보충 자료를 호스팅하는 반면 Figshare15,16,17은 Springer Nature, The Geological Society of London, The Geological Society of America 및 Taylor & Francis 저널의 지구 과학 간행물 데이터를 호스팅합니다. 이러한 저장소는 중요한 데이터 리소스이며 연구자가 자동화된 기술을 사용하여 웹 스크래핑과 같은 데이터를 검색하고 수집할 수 있게 해줍니다.
