• ETRI, 문장 입력하면 1초만에 뚝딱 이미지 만든다(“초고속 생성형 시각 모델 ‘코알라(KOALA)’공개, 오픈AI 대비 5배 빨라)
  • 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 결합해 이미지나 비디오를 불러와 한국어로 질의응답이 가능한 대화형 시각언어모델인‘코라바(Ko-LLaVA)’모델도 함께 공개

[허깅페이스(HuggingFace)를 통해 공개한 ‘코알라(KOALA)’ 모델]

[ ‘코알라(KOALA)’ 모델의 이미지 생성속도 비교]

[허깅페이스(HuggingFace)를 통해 공개한 ‘코라바(KO-LLaVA)’ 모델]

  • 텍스트에서 이미지를 생성하는 공개SW모델인 ‘코알라(KOALA)’ 모델은 지식 증류 기법을 통해 모델 크기를 기존 대비 1/3로 축소했고, 고해상도 이미지를 기존 대비 2배, 달리(DALL-E) 3 대비 5배 가량 빠르게 개선하였으며, 모델 생성 속도를 1초 내외로 만들고 모델 크기를 대폭 줄여 8GB 저용량의 메모리에서도 생성 가능한 기술임
  • 텍스트 모델을 가지고 이미지 나 비디오를 결합할수 있는 방식을 붙여서 이를 통해 그림을 설명하는 질문과 이를 답변하는 지시어 셋을 학습하는 방식으로 진행되는데, 기존의 오픈소스 모델인 라마라는 모델을 활용했습니다. 이미 만들어진 대형언어모델을 가지고, 이미지/비디오와 덧붙여서 학습한 대화형 인공지능 기술임
  • 코알라(KOALA)같이 이미지를 생성하는 모델은 교육/문화/방송 및 콘텐츠 분야와 같은 다양한 시각적 이미지를 토대로 한 분야에 기반 기술로 활용
  • 코라바(Ko-LLaVA)와 같은 대화형 인공지능은 현재 ChatGPT/Gemini와 같이 다양한 외산 소프트웨어가 개발되고 있으며, 이 또한 금융/보험/법률 등 다양한 챗봇 서비스가 적용
  • 담당자 : 이용주(초지능/지능정보/시각지능연구실) / 010-6618-9790 / yongju@etri.re.kr
  • 부담당자 : 이영완(초지능/지능정보/시각지능연구실) / 010-9949-6166 / yw.lee@etri.re.kr

ETRI(한국전자통신연구원)

(34129) 대전광역시 유성구 가정로 218 ㅣ Tel. 1466-38


운영사무국 ㅣ (주)엠앤씨 커뮤니케이션즈

Tel. 02-6925-3966 | Fax. 02-6235-6634 | etricon2024@gmail.com
(06114) 서울 강남구 강남대로 126길25, 3F ㅣ 사업자등록번호 204-86-26455


Copyright ⓒ ETRI Conference 2024 All rights reserved.