1) 정의: DataON에서 수집하는 국내외 연구데이터의 기술정보 등을 분석하여 해당 연구데이터에 대한 과학기술표준분류를 예측하는 방법론을 개발
2) 목적 및 배경
DataON에서는 오픈사이언스 연구 지원을 위해 공개 가능한 연구데이터를 국내외 연구개발기관으로부터 수집하고 있습니다. 연구데이터의 카테고리 검색을 위해 과학기술표준분류를 적용하고 싶지만, 대부분의 연구 데이터 기술 정보에는 과학기술표준분류가 부여되지 않고 있습니다. 이에 따라, 총 160만건의 연구데이터에 대한 과학기술표준분류를 통한 주제 분류가 필요합니다. 따라서, 여기서는 DataON에 적재된 연구데이터로부터 적합한 과학기술표준분류를 찾을 수 있는 해결 방법을 공모하고자 합니다.
1) 결과의 성능
- 593건의 과학기술표준분류가 부착된 연구데이터에 대하여 분석 정확도(Accuracy)로 측정
※ 만일, 해당 데이터셋 중에서 과학기술표준분류가 잘못 부착된 경우를 발견하면 근거 자료 제시
2) 결과물에 대한 설명
- 입력: 과학기술표준분류가 없는 연구데이터
- 결과: 과학기술표준분류가 부착된 연구데이터
1) 데이터명/종류
- DataON에 공개된 과학기술표준분류가 부착되지 않은 연구데이터셋 활용
- 분석용 공개 데이터셋 URL https://doi.org/10.22711/idr/979
- 논문연구분야 분류 데이터 https://doi.org/10.23057/50
2) 유형, 포맷, 용량/건수 등 문제해결을 위해 필요한 설명
- 해당 데이터는 CSV 파일 형태로 제공
- 과학기술표준분류가 부착된 데이터셋 593건(국내), 부착되지 않은 데이터셋 37,379건(국내), 30,000건(해외) 제공
- 데이터 분석에 NTIS, ScienceON, 논문연구분야 분류 데이터(AIDA) 등 과학기술표준분류 부착된 과학 기술 관련 사이트 또는 확보 가능한 데이터셋 활용 가능
- 제공항목은 아래와 같음(필수: 결측값(NULL) 없음, 선택: 결측값 가능)
입력 | 식별자(DOI/URL) | 필수 |
버전 | 선택 | |
제목 | 필수 | |
설명 | 선택 | |
키워드 | 선택 | |
제출자 | 선택 | |
담당자 | 선택 | |
생산자 | 선택 | |
출판자 | 선택 | |
언어 | 선택 | |
생성일시 | 선택 | |
저작권 | 선택 | |
기타속성 | 선택 | |
NTIS 과제번호 | 선택 | |
NTIS 과제명 | 선택 | |
랜딩페이지 (데이터 원본 URL) | 선택 | |
출력 | 주제분류(과학기술표준분류) | 선택 |
※ 과학기술표준분류는 2018년도 개정본을 활용함.
* 문제해결의 아이디어를 도출하는데 필요한 정도의 샘플 데이터를 우선 제출하고, 문제가 채택된 이후 전체 데이터를 공개할 수 있음