PROBLEM

문제목록
국가연구데이터통합플랫폼 DataON의 연구데이터에서 과학기술표준분류 예측
문제개요

1) 정의: DataON에서 수집하는 국내외 연구데이터의 기술정보 등을 분석하여 해당 연구데이터에 대한 과학기술표준분류를 예측하는 방법론을 개발

2) 목적 및 배경

DataON에서는 오픈사이언스 연구 지원을 위해 공개 가능한 연구데이터를 국내외 연구개발기관으로부터 수집하고 있습니다. 연구데이터의 카테고리 검색을 위해 과학기술표준분류를 적용하고 싶지만, 대부분의 연구 데이터 기술 정보에는 과학기술표준분류가 부여되지 않고 있습니다. 이에 따라, 총 160만건의 연구데이터에 대한 과학기술표준분류를 통한 주제 분류가 필요합니다. 따라서, 여기서는 DataON에 적재된 연구데이터로부터 적합한 과학기술표준분류를 찾을 수 있는 해결 방법을 공모하고자 합니다.

최종 성과물

1) 결과의 성능

- 593건의 과학기술표준분류가 부착된 연구데이터에 대하여 분석 정확도(Accuracy)로 측정

※ 만일, 해당 데이터셋 중에서 과학기술표준분류가 잘못 부착된 경우를 발견하면 근거 자료 제시

2) 결과물에 대한 설명

- 입력: 과학기술표준분류가 없는 연구데이터

- 결과: 과학기술표준분류가 부착된 연구데이터

활용 데이터

1) 데이터명/종류

- DataON에 공개된 과학기술표준분류가 부착되지 않은 연구데이터셋 활용

- 분석용 공개 데이터셋 URL https://doi.org/10.22711/idr/979

- 논문연구분야 분류 데이터 https://doi.org/10.23057/50

2) 유형, 포맷, 용량/건수 등 문제해결을 위해 필요한 설명

- 해당 데이터는 CSV 파일 형태로 제공

- 과학기술표준분류가 부착된 데이터셋 593건(국내), 부착되지 않은 데이터셋 37,379건(국내), 30,000건(해외) 제공

- 데이터 분석에 NTIS, ScienceON, 논문연구분야 분류 데이터(AIDA) 등 과학기술표준분류 부착된 과학 기술 관련 사이트 또는 확보 가능한 데이터셋 활용 가능

- 제공항목은 아래와 같음(필수: 결측값(NULL) 없음, 선택: 결측값 가능)

입력

식별자(DOI/URL)

필수

버전

선택

제목

필수

설명

선택

키워드

선택

제출자

선택

담당자

선택

생산자

선택

출판자

선택

언어

선택

생성일시

선택

저작권

선택

기타속성

선택

NTIS 과제번호

선택

NTIS 과제명

선택

랜딩페이지

(데이터 원본 URL)

선택

출력

주제분류(과학기술표준분류)

선택

※ 과학기술표준분류는 2018년도 개정본을 활용함.

데이터 샘플

 * 문제해결의 아이디어를 도출하는데 필요한 정도의 샘플 데이터를 우선 제출하고, 문제가 채택된 이후 전체 데이터를 공개할 수 있음

맨 위로