1) 정의: KISTI 기계학습데이터서비스에서 제공하고 있는 논문 원문 정보를 활용하여 논문의 주제를 예측
2) 목적 및 배경
- 과학 기술 분야에서 발표되는 논문의 양이 굉장히 많음(매년 500만편 이상의 논문이 생산되며, computer vision 도메인으로 한정하더라도 약 3만편 이상이 생산된다고 함)
- 논문 survey를 위해 살펴봐야 할 논문이 많기 때문에, 검색 방법과 살펴봐야 할 논문 리스트를 축약하는 것이 연구자의 역량
- 국내 논문의 경우 국가과학기술표준분류를 통해 주제 분류를 하고 있음
- 대부분의 유사 주제의 논문들은 국과과학기술표준분류가 겹치는 경우가 많으며, 이를 통한 분류가 가능할 것임
- 본 문제에서는 논문 전문 텍스트 데이터에서 국가과학기술표준분류를 유추하는 것을 목표로 함
- 나아가서 유추한 결과를 토대로 유사한 논문 리스트를 추천하는 시스템을 구축하는 것이 최종 목표
1) 결과의 성능
- aida.kisti.re.kr에 공개된 ‘논문 연구분야 분류 데이터’ 30,000건 이외에 KISTI에서 보유하고 있는 n건의 연구분야 분류 데이터에 대한 국가과학기술표준분류 성능치
2) 결과물에 대한 설명
- 입력값 : 국내 논문 전문 텍스트 데이터셋 (한글/영문)
- 출력값 : 과학기술 표준분류의 중분류
- 추가사항(가산점 부여) : 분류된 주제를 이용하여, 입력된 논문과 관련된 논문 리스트 출력
1) 데이터명/종류
- aida.kisti.re.kr에 공개된 4종의 텍스트 데이터
: 논문 연구분야 분류 데이터(30,000건),https://doi.org/10.23057/50
: 국내 논문 QA 데이터셋(276,804건, 8GB), https://doi.org/10.23057/49
: 국내 논문 문장 의미 태깅 데이터셋(14,083건), https://doi.org/10.23057/36
: 국내 논문 전문 텍스트 데이터셋(481,578건), https://doi.org/10.23057/38
- 그 외에 추가사항 달성을 위한 학습데이터 추가 활용은 자유롭게 가능
* 결과 발표 시 활용 방법에 대한 설명이 필요함
2) 유형, 포맷, 용량/건수 등 문제해결을 위해 필요한 설명
-데이터셋 상세 내용은 aida.kisti.re.kr에서 확인 가능
* 문제해결의 아이디어를 도출하는데 필요한 정도의 샘플 데이터를 우선 제출하고, 문제가 채택된 이후 전체 데이터를 공개할 수 있음
컬럼명 | 설명 |
id | 논문 id |
year | 년도 |
title_ko | 논문제목(한글) |
title_en | 논문제목(영문) |
journal_ko | 학술지명(한글) |
journal_en | 학술지명(영문) |
text | 논문본문 |
code1 | 과학기술표준분류코드 |
code2 | 과학기술표준분류코드 |
code3 | 과학기술표준분류코드 |
예시) 논문 연구분야 분류 데이터