사람처럼 텍스트·이미지 등 동시에 이해하는 멀티모달 AI 개발

KAIST, 전기및전자공학부 황의종 교수팀

 

[더테크 이지영 기자]  국내 연구진이 그림과 글자처럼 서로 다른 형태의 데이터를 동시에 활용하면서도 한쪽에 치우치지 않는 ‘멀티모달 인공지능 학습 기술’을 개발했다.

 

KAIST(총장 이광형)는 14일 전기및전자공학부 황의종 교수 연구팀이 멀티모달 인공지능이 텍스트·영상 등 다양한 데이터를 균형 있게 활용할 수 있도록 돕는 새로운 데이터 증강 학습 기법을 개발했다고 밝혔다.

 

멀티모달 인공지능은 여러 감각 정보를 종합적으로 판단하는 기술로, 최근 생성형 AI의 핵심으로 주목받고 있다. 그러나 기존 기술은 특정 유형의 데이터(예: 이미지나 텍스트)에 편향돼 성능이 떨어지는 한계가 있었다.

 

연구팀은 이러한 문제를 해결하기 위해, 일부러 서로 어울리지 않는 데이터 조합을 학습 과정에 투입하는 방식을 고안했다. 이 방법을 통해 인공지능이 특정 데이터에 의존하지 않고, 글·그림·소리 등 다양한 정보를 균형 있게 이해하도록 만들었다.

 

또한 데이터의 난이도와 품질을 고려해 품질이 낮은 데이터는 보완하고, 어려운 데이터는 집중 학습하는 기법을 더해 다양한 상황에서도 안정적인 성능 향상을 달성했다. 연구진은 이 기술이 모델 구조에 제약받지 않고 여러 데이터 유형에 쉽게 적용될 수 있어 확장성과 실용성이 높다고 강조했다.

 

황의종 교수는 “AI 성능을 높이려면 모델 구조를 바꾸는 것보다 데이터를 어떻게 설계하고 학습에 활용하느냐가 더 중요하다”며 “이번 연구는 멀티모달 인공지능이 특정 데이터에 치우치지 않고 균형 있게 정보를 처리할 수 있음을 보여줬다”고 말했다.

 

이번 연구에는 황성현 박사과정과 최소영 석사과정이 공동 제1저자로 참여했으며, 연구 결과는 오는 12월 AI 분야 최고 권위 국제학술대회 ‘NeurIPS 2025’(Conference on Neural Information Processing Systems)에서 발표될 예정이다.

 

한편, 이번 연구는 정보통신기획평가원(IITP)의 지원을 받은 ‘강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습’ 과제(RS-2022-II220157)와 ‘뇌질환 진단 및 치료용 비침습 근적외선 기반 AI 기술’ 과제(RS-2024-00444862)의 일환으로 수행됐다.

 



배너