[더테크 이지영 기자] 카카오가 일반 대화와 고난도 추론을 하나의 모델로 처리하는 하이브리드 멀티모달 AI를 공개하며 자체 AI 기술 경쟁력을 다시 한 번 입증했다. 한국어 이해와 논리 추론에서 글로벌 동급 모델을 뛰어넘는 성과를 기록했다는 평가다.
카카오는 5일 가벼운 일상 대화부터 복잡한 논리적 문제 해결까지 단일 모델로 수행 가능한 자체 개발 AI 모델 ‘Kanana-v-4b-hybrid’의 성능을 공개했다고 밝혔다.
이번 모델은 지난해 7월 오픈소스로 공개한 ‘Kanana-1.5-v-3b’를 기반으로 개발됐다. 단순 이미지 설명이나 텍스트 변환을 넘어, 정보를 종합하고 계산하며 결과를 스스로 검산하는 자기 점검 과정을 거치는 것이 특징이다. 이를 통해 AI 모델의 고질적인 환각 현상을 최소화하고, 복잡한 표·영수증·수학 문제 등에서 발생하기 쉬운 계산 오류와 조건 누락을 크게 줄였다.
카카오는 Kanana-v-4b-hybrid의 성능 고도화를 위해 단계별 학습 전략을 적용했다. 기초 학습을 시작으로 장문 사고 사슬(Long Chain of Thought), 오프라인 강화학습, 온라인 강화학습으로 이어지는 4단계 정교한 학습 절차를 거쳤다.
특히 한국어 논리 전개 능력에서 차별화된 경쟁력을 보였다. 다수의 글로벌 모델이 한국어 질문을 영어로 번역한 뒤 재번역하는 과정에서 맥락 손실이 발생하는 반면, Kanana-v-4b-hybrid는 한국어 질문을 그대로 이해하고 사고하도록 설계됐다. 이 같은 강점을 바탕으로 대학수학능력시험 사회탐구·수학 영역 문제에서 미묘한 조건을 놓치지 않고 높은 정답률을 기록했다. 한국형 AI 학력 평가 벤치마크 ‘KoNET’에서는 92.8점을 획득했다.
또한 Qwen3-VL-4B, InternVL3.5-4B, GPT-5-nano 등 유사 규모의 글로벌 모델과의 비교 평가에서도 과학·공학, 일반 시각 질의응답, 문서 이해 분야에서 우수한 성능을 나타냈다. 특히 수학과 과학 등 고난도 추론 영역과 시각 이해 능력에서는 글로벌 모델을 상회하는 결과를 보였다.
카카오는 향후 사용자가 별도로 모델을 선택하지 않아도 AI가 질문의 복잡도를 스스로 판단해 일반 모드와 추론 모드를 자동 전환하는 형태로 고도화할 계획이다. 이를 통해 하나의 대화창에서 단순 질의부터 복잡한 분석 요청까지 끊김 없는 사용자 경험을 제공하는 동시에, 비용 효율적인 AI 서비스 구현을 목표로 하고 있다.
김병학 카카오 카나나 성과리더는 “Kanana-v-4b-hybrid는 한국어 환경에서 가장 자연스럽고 정확하게 사고하고 답변할 수 있는 모델”이라며 “일상과 복잡한 업무를 하나의 AI에 맡길 수 있는 혁신적 성과로, 자체 AI 기술을 바탕으로 글로벌 경쟁력과 국내 AI 생태계 성장을 동시에 이끌어가겠다”고 말했다.
한편 카카오는 지난달 멀티모달 언어모델 ‘Kanana-o’와 ‘Kanana-v-embedding’을 공개한 데 이어, 에이전틱 AI 구현에 최적화된 고성능·고효율 언어모델 ‘Kanana-2’를 오픈소스로 선보이는 등 AI 연구개발 성과를 지속적으로 확대하고 있다.















