2025.05.23 (금)
T 뉴스
멀티미디어
독자 · 소통
[더테크=전수연 기자] 국내 연구진이 오픈AI의 GPT-4V와 구글의 제미나이 프로 수준의 멀티모달 LLM을 개발했다. KAIST는 전기및전자공학부 노용만 교수 연구팀이 기업에서 비공개하고 있는 상업 모델인 LLM의 시각 성능을 뛰어넘는 공개형 멀티모달 LLM을 출시했다고 20일 밝혔다. KAIST는 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 멀티모달 LLM이 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준의 모델이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다고 분석했다. 이에 노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 LLM의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다. 연구팀이 개발한 첫 번째 기술 콜라보는 현존하는 공개형 멀티모달 LLM이 비공개형 모델의 성능에 비해 현저하게 낮은 이유와 일차적으로 물체 수준에 대한 이미지 이해 능력이 떨어진다는 점을 우선 검증했다. 해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상하기 위해 연구팀은
더테크는 ‘스마트 테크 전문‘ 미디어입니다. AI, 사물인터넷, 미래모빌리티 등 인더스트리 4.0 시대를 이끌어갈 딥테크 분야를 중심으로 다양한 ICT 산업컨텐츠를 제공하고 있습니다. 뉴스레터 발송을 위한 최소한의 개인정보를 수집하고 있습니다. 수집된 정보는 발송 외 다른 목적으로 이용되지 않으며 서비스 종료가 되거나 구독을 해지할 경우 즉시 파기됩니다.