본문 바로가기 주메뉴 바로가기

KISTI, 기계학습데이터 ScienceON 통해 활용 개방

손영주 2021-11-03 View. 12,123

KISTI, 기계학습데이터 ScienceON 통해 활용 개방

- 425만 건의 데이터에 누구나 자유롭게 접근·활용 -

- 혁신적 연구 활동 지원과 새로운 비즈니스 창출 기여 기대 -



한국과학기술정보연구원(원장 김재수, 이하 KISTI)은 ‘과학기술 분야 기계학습데이터 구축 사업’의 결과물을 누구나 쉽게 활용할 수 있도록 과학기술 지식인프라 ScienceON(http://scienceon.kisti.re.kr)에서 ‘기계학습데이터 활용 서비스’를 11월 3일 론칭한다.


데이터와 AI가 글로벌 경제의 핵심으로 전망되며 많은 연구 분야에서 AI가 적극 활용되고 있으나, AI가 활용할 수 있는 데이터, 즉 기계학습데이터는 부족한 상황이다. 이에 KISTI는 기계학습데이터 구축 사업을 전개하여, 과학기술 분야 국내논문 및 국가R&D연구보고서를 토대로 AI를 위한 데이터셋 5종 425만 건을 구축하는 데 성공했다.


또한 KISTI는 이렇게 구축한 데이터셋을 이용자가 원하는 방식으로 자유롭게 활용할 수 있도록 ScienceON의 기존 학술정보 서비스에 기계학습데이터 4종(논문 전문 텍스트, 보고서 표/그림, 논문 QA, 논문 문장 의미태깅)을 접목한 서비스를 선보인다.


제공되는 서비스는 첫째, 논문 전문 텍스트를 활용하여 이용자가 검색한 키워드가 본문 문장에서 어떻게 표현되는지 키워드의 전후 내용을 스니펫(검색한 의도에 부합하는 답을 제공할 수 있는 최소한의 단위)으로 제공하고, 둘째, 보고서에 수록된 표/그림 이미지는 물론, 이를 설명하는 캡션과 인용 문장들까지도 함께 제공하게 된다. 또한, 셋째, 논문 QA 데이터를 활용하여 논문의 핵심 어휘를 질문과 답변 형식으로 쉽게 풀이하여 제공하고, 넷째, 논문 문장 의미태깅을 통해 연구목적, 연구방법, 연구결과를 요약하여 제공함으로써 이용자가 논문을 빠르게 선택할 수 있도록 도움을 주게 된다.


이 외에도 요약 정보를 PDF 원문에 표시하여 제공함으로써 PDF 원문 가독성을 높였으며, 특정 참고문헌이 인용된 문장도 논문에서 바로 확인할 수 있도록 했다.



OPEN 출처표시, 상업용금지, 변경금지, 공공누리 공공저작물 자유이용허락

본 저작물은 “공공누리 제4유형(출처표시, 상업적 이용금지, 변경금지)” 조건에 따라 누구나 이용할 수 있습니다.

이 페이지에서 정보에 대해 만족하십니까?
  • 담당부서
  • 담당자박성욱
  • 연락처042-869-1610
Back to Top