1시간 길이 영상도 요약하는 '제미나이 1.5 프로' 출시

[더테크=전수연 기자] 구글(Google)이 기본 12만8000개의 토큰부터 최대 100만까지 활용할 수 있는 서비스를 공개했다. 특히 단어, 사진, 영상 등 다양한 정보를 프롬프트에서 처리할 수 있어 개발자들의 수요가 높을 것으로 보인다.

구글은 제미나이 AI 스튜디오 및 버텍스AI에서 제미나이 API와 1.0 울트라를 활용해 개발할 수 있는 새로운 제미나이 어드밴스드를 선보였다고 16일 밝혔다.

차세대 모델 제미나이 1.5는 긴 문맥 이해 능력이 향상됐다. 구글은 모델이 처리할 수 있는 정보의 양을 극대화해 최대 100만 토큰을 연속 실행할 수 있도록 구현했다. 이는 현존하는 대규모 파운데이션 모델 중 가장 긴 컨텍스트 윈도우를 확보한 성과로 볼 수 있다.

우선 구글은 파운데이션 모델 개발, 인프라의 모든 부분에 걸친 연구를 기반으로 접근 방식을 변화했다. 현재 구글은 이 일환으로 MoE 아키텍처 바탕의 제미나이 1.5를 훈련시키고 있다.

제미나이 1.5 프로는 12만8000개의 토큰 컨텍스트 윈도우가 기본 제공되며 프리뷰 버전에는 제한된 그룹의 개발자, 기업을 대상으로 구글 AI 스튜디오 및 버텍스AI를 통해 100만 개의 토큰 컨텍스트 윈도우를 제공한다.

100만 토큰 컨텍스트 윈도우는 시간 지연 문제를 개선하기 위해 추가 최적화가 필요하다. 이에 구글은 서비스를 확장해 문제를 해결하고 있으며 차세대 모델의 지속 개발을 통해 개발자, 기업의 AI 창작을 지원한다.

또한 토큰은 단어, 사진, 영상, 음성, 코드 전체 부분이나 세부 항목이 될 수 있다. 모델의 컨텍스트 윈도우가 클수록 주어진 프롬프트에서 더 많은 정보를 처리할 수 있어 연관성 높은 결과를 제공한다.

구글은 이번 컨텍스트 윈도우가 머신러닝 혁신을 통해 1시간 분량의 영상, 11시간 분량의 음성, 3만 줄 이상의 코드 및 70만 개가 넘는 단어 등의 방대한 정보를 한 번에 처리할 수 있다고 설명했다.

이번 제미나이 1.5는 트랜스포머, MoE 아키텍처의 연구를 기반으로 주어진 입력 유형에 따라 신경망에서 가장 관련성 높은 전문 영역 경로만을 선택적으로 활성화하는 방법을 학습한다. 이 기술은 구글의 다양한 연구를 통해 딥러닝을 위한 서비스로 제공된 바 있다.

이에 더해 제미나이 1.5는 긴 코드 블록에서 연관성이 높은 문제 해결 작업을 수행한다. 예를 들어 10만 줄 이상의 코드가 포함된 프롬프트에도 유용한 수정사항을 제안하거나 코드의 작동 설명을 제공한다.

특히 문맥 기반 학습(in-context learning) 기능을 통해 추가 미세 조정 작업 없이 긴 프롬프트 내 정보에서 새로운 기술을 학습할 수 있다. 또한 구글의 AI 원칙, 안전성 정책에 기반해 테스트가 진행된다.

이와 함께 제미나이 1.5는 구글 내 많은 부서에서 어드밴스드 버전을 반복 확인해 훈련되고 있으며 현재 추가 최적화를 위해 테스트가 진행되고 있다.

아울러 구글은 향후 제미나이 1.5 프로에 기본 12만8000개 토큰 컨텍스트 윈도우를 넘어 모델 개발 상황에 따라 100만 토큰까지 제공하는 구매 옵션을 공개할 예정이다.

관련기사