본문 바로가기 주메뉴 바로가기

KISTI, 과학기술 특화 생성형 언어 모델 KONI 신규버전 공개

박성욱 2024-07-31 View. 27,294

KISTI, 과학기술 특화 생성형 언어 모델 KONI 신규버전 공개

- 대량 학습데이터와 RAG 기술 적용, 과학 기술 연구 혁신 가속화 기대 -


한국과학기술정보연구원(원장 김재수, 이하 KISTI)은 7월 31일, 새로운 버전의 과학기술 특화 생성형 거대 언어 모델(이하 LLM; Large Language Model) KONI(KISTI Open Natural Intelligence, 한글명 고니)를 공개한다고 밝혔다. 새로운 버전의 KONI는 작년 12월 최초 개발한 모델에 비해 보다 향상된 성능을 보였으며, 과학기술 관련 업무를 수행하는 누구나 사용할 수 있도록 공개되었다. 


과학기술정보 전문 국가연구기관인 KISTI는 다양한 국가 과학기술 빅데이터를 지속적으로 수집 및 분석하여 과학기술에 특화된 LLM 개발을 선도하고 있다. 이번에 공개한 새로운 버전의 KONI는 사전학습 LLM인 KONI-Llama3-8B 및 Chat 모델인 KONI-Llama3-8B-Instruct 두 가지 버전으로 공개되었다.

이번 공개모델들은 기존 모델보다 2배 이상의 과학기술정보를 포함하는 데이터를 활용하여 학습되었으며, 추론, 글쓰기, 이해 등 다양한 작업에서 성능이 크게 향상되었다. 특히, 한국어 LLM에 대한 종합적인 사고력을 측정하는 LogicKor 벤치마크 리더보드(https://lk.instruct.kr/)에서 동일 크기 LLM 중 1위를 달성하였다. 무엇보다 단지 8B 모델 크기를 갖는 KONI LLM이 70B 이하 LLM 중 처음으로 LogicKor 점수 8점을 넘어선 8.21점을 기록함으로써 한국어 LLM 개발에 있어 새로운 이정표를 제시하였다. KISTI KONI LLM들은  Hugging Face(https://huggingface.co/KISTI-KONI)와 KISTI의 AI 데이터 공유·활용 서비스 AIDA(https://aida.kisti.re.kr/)에서 누구나 제약없이 다운로드하여 활용할 수 있다.


또한, KISTI는 LLM에서 일반적으로 발생되는 환각 현상을 최소화하기 위한, 기존 정보 서비스 시스템이 보유한 데이터를 활용하는 검색 증강 생성 기술(RAG; Retrieval-Augmented Generation)을 보유하고 있다. RAG 기술을 KONI와 연계하여 신뢰성이 향상된 질의응답(Question-Answering) 시스템을 개발하였고, 과학기술 관련 법령, 규정, 지침을 대상으로 하여 KISTI 내부에서 성능 검증을 통해 연구원들의 다양한 피드백을 수집하여 추가 학습함으로써 KONI의 성능을 더욱 향상시켰다. 


KISTI는 앞으로도 국가 과학기술 정보를 지속적으로 수집하고 이를 기반으로 성능이 향상된 새로운 버전의 다양한 모델 크기의 KONI를 주기적으로 공개할 계획이며 과학기술 출연(연)뿐만 아니라, KISTI와 협력 중인 국방, 전력, 정책 등 여러 공공기관의 수요를 반영한 도메인 특화 LLM 또한 개발, 보급할 계획이다. 


KISTI 김재수 원장은 "새로운 버전의 KONI를 통해 과학기술 및 산업 분야를 포함하는 다양한 분야에서 과학기술정보 유통과 분석 체계를 혁신적으로 개선하고, 더 나아가 연구자의 과학적 발견을 지원할 수 있는 에이전트(Agent)체계인 KONI 기반 자율 연구자 AI를 구축할 계획이다."라고 밝혔다.

OPEN 출처표시, 상업용금지, 변경금지, 공공누리 공공저작물 자유이용허락

본 저작물은 “공공누리 제4유형(출처표시, 상업적 이용금지, 변경금지)” 조건에 따라 누구나 이용할 수 있습니다.

이 페이지에서 정보에 대해 만족하십니까?
  • 담당부서
  • 담당자박성욱
  • 연락처042-869-1610
Back to Top