HOME 대회개요 신청안내 심사정보 참가신청 신청확인 로그인
Boat
Q&A

Q&A

제목 국내논문 QA 데이터 부문에서 공모전을 진행하고
작성자 박주영
질문 국내논문 QA 데이터 부문에서 공모전을 진행하고 있는데,

QA데이터셋에서 응답의 단락 위치가 정확하지 않는것 같습니다.

저희는 주어진 논문 CSV파일에서 같은 논문에 대해 다른 두 질의 응답 각각 기준으로

,

html 태그 개수를 세어서 응답의 단락 위치와 응답의 시작 index를 확인해 보았습니다. 그런데 응답의 단락 위치에서 두 응답 모두 6개의 태그가 부족하다는 것을 알았습니다. 저희 생각에는 논문의 맨 앞 부분이 포함되지 않아 응답의 단락 위치가 틀린 것 같습니다.

또한 응답의 시작 index 에서
태그를 미포함하여야 주신 데이터셋결과와 동일한데 확신이 들지 않습니다.

핵심어휘의 단락 위치, 응답의 단락 위, 핵심어휘 시작 index, 핵심어휘 종료 index , 응답의 시작 index, 응답의 종료 index에 대한 라벨링 기준이 궁금합니다.

답변 안녕하세요, 답변이 늦어 죄송합니다.

확인해보니 논문 HTML의 앞 부분에 다른 정보가 추가적으로 들어가야 합니다.

해당 부분 수정하여 내일 오후 쯤.. 다시 드릴 수 있을 거 같습니다.

아래와 같이 데이터를 재구성하여 보내드리겠습니다.
1. 기존 "질의응답데이터.xlsx" 동일
2. 기존 "논문.xlsx" 변경 (변경사유: 엑셀 저장 시 개행문자 보존)
- 논문별 txt파일 생성 (파일 제목: 논문 제어번호, 내용: 논문 HTML)

핵심어휘 및 응답의 index는 글자의 시작과 끝이며, 태그를 포함하여 문장 앞부터 인덱스를 계산하시면 됩니다.

문의사항 있으면 다시 문의주세요~