보면서 학습하는 AI 모델, 메타 ‘V-JEPA’ 공개

메타, 인간의 시각인식을 모방한 AI 모델인 JEPA의 최신 버전 공개
영상의 공백을 채우는 학습 방식 통해 일반 인공지능 향해 나아갈 계획

 

[더테크=조재호 기자] 메타(Meta)가 인간의 시각인식을 모방한 방식으로 훈련하는 인공지능(AI) 모델 I-JEPA의 후속작을 출시했다.

 

메타는 지난해 공개한 ‘이미지 공동 임베딩 예측 아키텍처(I-JEPA)’라는 이름의 이미지 데이터 학습 AI 모델의 최신 버전인 ‘V-JEPA’를 15일(현지시각) 공개했다. 아울러 해당 모델을 연구하고 확장할 수 있도록 CC BY-NC(저작자표시-비영리) 라이선스로 공개했다고 15일(현지시각) 밝혔다.

 

V-JEPA(Video Joint Embedding Predictive Architecture)는 기존 버전에서 이미지로 데이터를 학습하는 방식에서 V로 바뀐 비디오 영상물을 학습하는 모델이다.

 

얀 르쿤(Yann LeCun) 메타 VP 겸 최고 AI 과학자는 “우리의 목표는 인간처럼 더 많은 것을 배울 수 있는 일반 인공지능을 구축하는 것”이라며 “복잡한 작업이 필요한 서비스에서 효율적으로 학습하고 계획을 세울 수 있도록 세상이 돌아가는 방식을 파악해 낯선 환경에서도 쉽게 적응할 수 있는 모델을 형성하는 것”이라고 밝혔다.

 

V-JEPA는 영상에서 누락되거나 가려진 부분을 예측하는 방식으로 학습한다. 기존 이미지 인식 모델에서 비디오 영상으로 확장했다. 기존 버전에서 픽셀 자체를 비교하는 것이 아니라 이미지의 추상적인 표현을 비교하는 방식과 유사한 방법을 구사한다.

 

기존 누락된 구간을 모두 채우려는 생성적 접근 방식과 달리 V-JEP는 예측할 수 없는 정보를 버릴 수 있는 유연성을 갖춰 훈련 및 샘플 효율성이 1.5배에서 6배까지 늘어났다는 설명이다.

 

다만, V-JEPA는 추상 표현 공간에서 비디오의 누락되거나 가려진 부분을 예측하여 학습하는 비생성 모델이다. 연구용 모델이기에 당장 컴퓨터 비전 시스템에 적용할 수는 없지만 향후 다양한 응용 분야를 탐색하고 있다는 설명이다. 향후 V-JEPA는 현재 시각 콘텐츠를 처리하는 AI 모델로 메타는 향후 영상과 함게 오디오까지 통합한 모델을 고려하고 있다고 덧붙였다.

 

V-JEPA는 메타의 책임감 있는 개방형 과학의 가치에 따라 다른 연구자들이 모델에 접근할 수 있도록 CC BY-NC로 GitHub에 공개됐다.



배너