PROBLEM

문제목록
과학기술 논문 원문 정보로부터 주제 분류하기(Top3)
문제개요

1) 정의: KISTI 기계학습데이터서비스에서 제공하고 있는 논문 원문 정보를 활용하여 논문의 주제를 예측

2) 목적 및 배경

- 과학 기술 분야에서 발표되는 논문의 양이 굉장히 많음(매년 500만편 이상의 논문이 생산되며, computer vision 도메인으로 한정하더라도 약 3만편 이상이 생산된다고 함)

- 논문 survey를 위해 살펴봐야 할 논문이 많기 때문에, 검색 방법과 살펴봐야 할 논문 리스트를 축약하는 것이 연구자의 역량

- 국내 논문의 경우 국가과학기술표준분류를 통해 주제 분류를 하고 있음

- 대부분의 유사 주제의 논문들은 국과과학기술표준분류가 겹치는 경우가 많으며, 이를 통한 분류가 가능할 것임

- 본 문제에서는 논문 전문 텍스트 데이터에서 국가과학기술표준분류를 유추하는 것을 목표로 함

- 나아가서 유추한 결과를 토대로 유사한 논문 리스트를 추천하는 시스템을 구축하는 것이 최종 목표

최종 성과물

1) 결과의 성능

- aida.kisti.re.kr에 공개된 ‘논문 연구분야 분류 데이터’ 30,000건 이외에 KISTI에서 보유하고 있는 n건의 연구분야 분류 데이터에 대한 국가과학기술표준분류 성능치

2) 결과물에 대한 설명

- 입력값 : 국내 논문 전문 텍스트 데이터셋 (한글/영문)

- 출력값 : 과학기술 표준분류의 중분류

- 추가사항(가산점 부여) : 분류된 주제를 이용하여, 입력된 논문과 관련된 논문 리스트 출력

활용 데이터

1) 데이터명/종류

- aida.kisti.re.kr에 공개된 4종의 텍스트 데이터

: 논문 연구분야 분류 데이터(30,000건),https://doi.org/10.23057/50

: 국내 논문 QA 데이터셋(276,804건, 8GB), https://doi.org/10.23057/49

: 국내 논문 문장 의미 태깅 데이터셋(14,083건), https://doi.org/10.23057/36

: 국내 논문 전문 텍스트 데이터셋(481,578건), https://doi.org/10.23057/38

- 그 외에 추가사항 달성을 위한 학습데이터 추가 활용은 자유롭게 가능

* 결과 발표 시 활용 방법에 대한 설명이 필요함

2) 유형, 포맷, 용량/건수 등 문제해결을 위해 필요한 설명

-데이터셋 상세 내용은 aida.kisti.re.kr에서 확인 가능

데이터 샘플

 * 문제해결의 아이디어를 도출하는데 필요한 정도의 샘플 데이터를 우선 제출하고, 문제가 채택된 이후 전체 데이터를 공개할 수 있음

컬럼명

설명

id

논문 id

year

년도

title_ko

논문제목(한글)

title_en

논문제목(영문)

journal_ko

학술지명(한글)

journal_en

학술지명(영문)

text

논문본문

code1

과학기술표준분류코드

code2

과학기술표준분류코드

code3

과학기술표준분류코드

예시) 논문 연구분야 분류 데이터

맨 위로