구글 ‘제미나이’ 공개, 멀티모달 기반의 신규 AI 모델

멀티모달 기반의 AI 모델로 텍스트, 이미지, 오디오, 동영상, 코드 등의 정보 조합 가능
LLM 연구개발 평가에 활용되는 32개 벤치마크 중 30개 부분에서 최고 성능 기록해

 

[더테크 뉴스] 구글의 새로운 인공지능(AI) 모델 ‘제미나이’를 공개했다. 한차례 출시가 연기되면서 내년 초 공개될 것으로 알려졌는데 연내 출시를 강행했다. 최근 오픈AI 이슈와 AI얼라이언스 결성 등 AI 개발 경쟁이 치열해지자 서둘러 움직인 것으로 보인다.

 

구글은 현지시각 12월 6일, 새로운 AI 모델인 ‘제미나이(Gemini)’를 공개했다.

 

제미나이는 멀티모달 기반의 AI 모델로 텍스트와 이미지, 오디오, 동영상, 코드 등 다양한 유형의 정보를 이해하고 조합해 활용할 수 있는 모델이다. 가령 사람이 말로 질문을 하면 답변을 텍스트나 이미지로 할 수 있다는 이야기다.

 

팜2에 이은 신규 AI 모델인 제미나이는 세 가지 크기로 최적화됐다. 방대하고 복잡한 작업에 적합한 제미나이 울트라(Gemini Ultra)와 다양한 작업에 활용하고 확장성이 넓은 제미나이 프로(Gemini Pro), 스마트폰을 비롯한 다양한 IT 디바이스에서 활용될 수 있는 제미나이 나노(Gemini Nano) 등이다.

 

순다르 피차이(Sundar Pichai) 구글 CEO는 “구글이 한 기업으로서 진행했던 가장 큰 과학적 및 기술적 결과물 중 하나”라며 “앞으로 다가올 변화와 제미나이가 제공할 기회들이 기대된다”고 말했다.

 

이번에 공개된 제미나이 1.0은 구글의 다양한 제품과 플랫폼을 통해 순차적으로 공개될 예정이다. 먼저 일반 사용자들은 7일부터 파인튜닝된 제미나이 프로가 적용된 바드(Bard)를 한국을 포함한 170여개의 국가에서 영어로 이용할 수 있다.

 

구글의 스마트폰인 픽셀에도 제미나이가 탑재될 예정으로 픽셀 8 프로 모델은 제미나이 나노가 적용된다. 제미나이 나노는 녹음 앱의 요약하기와 같은 새로운 기능을 지원하며 왓츠앱(WhatsApp)을 시작으로 내년에 더 많은 메시징앱에 적용될 예정이다.

 

아울러 구글은 구글 검색, 광고, 크롬, 듀엣 AI 등에서 제미나이를 적용한다는 계획이다.

 

이번 공개에 앞서 구글은 다양한 검증 작업을 진행해 제미나이를 테스트하고 성능을 평가했다. 제미나이 울트라는 자연스러운 이미지와 음성, 영상의 이해부터 수학적 추론에 이르기까지 32개의 벤치마크 중 30개에서 기존 모델들을 뛰어넘는 결과를 보여줬다.

 

수학과 물리학, 역사, 법률, 의학, 윤리 등 지식과 문제 해결 능력을 평가하는 MMLU(massive multitask language understanding; 대규모 멀티태스크 언어 이해)에서 90.04%의 점수를 기록했는데 전문가보다 높은 결과를 보인 최초의 AI 모델이 됐다.

 

고도의 추론 능력을 요하는 멀티모달 치마크인 MMMU(A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, AGI를 위한 대규모 다분야 복합 이해 및 추론)에서도 59.4%의 최상위 점수를 기록했다.

 

한편, 최근 글로벌 빅테크 기업의 AI 개발 경쟁은 한층 더 빨라지는 추세다. 최근 오픈AI의 GPT-4 터보와 AI 마켓을 준비하고 있다고 밝혔으며, AWS도 자사의 클라우드 컨퍼런스인 리인벤트를 통해 다양한 서비스를 공개했다. 6일에는 메타와 IBM이 주도한 AI얼라이언스 결성과 함께 개방형 혁신을 강조했다. 이러한 가운데 이번 구글의 멀티모달 AI 발표가 이어졌다.



배너