AI허브 데이터 ‘업사이클링’ 추진… 추론형·피지컬 AI 데이터로 전환

기존 AI 데이터 재활용해 생성형 AI 경쟁력 강화
LLM·피지컬 AI 학습데이터 공개

 

[더테크 이지영 기자] 과학기술정보통신부와 한국지능정보사회진흥원이 기존 AI 허브 데이터를 생성형 AI 시대에 맞는 추론형 학습데이터로 재가공하는 ‘AI 학습용데이터 업사이클링’ 사업을 본격 추진한다.

 

과기정통부는 7일 기존 AI 허브(AI Hub) 데이터셋을 최신 생성형 AI 기술 환경에 맞춰 재가공하는 사업 공고를 지난 4월 30일부터 시작했다고 밝혔다. 이번 사업은 기존 판별형 AI 중심 데이터를 추론 과정과 행동 정보를 포함하는 생성형 AI용 데이터로 전환해 AI 경쟁력을 강화하기 위해 마련됐다.

 

‘업사이클링’은 기존 구축 데이터를 최신 기술 환경에 맞게 다시 가공하는 방식이다. 과기정통부는 신규 데이터 구축 대비 예산 효율성을 높이면서도 최신 AI 학습 환경에 적합한 데이터 확보가 가능할 것으로 기대하고 있다.

 

이번 사업에서는 LLM(대규모 언어모델)과 피지컬 AI 분야를 중심으로 총 30종의 데이터셋이 재가공된다. 사업 규모는 약 30억원 수준이다. 정부는 2022년까지 구축된 AI 허브 데이터 691종을 전수 분석한 뒤, 생성형 AI 확장 가능성과 활용도를 기준으로 30종을 최종 선정했다.

 

LLM 분야에서는 기존 텍스트 데이터를 질문·근거 검토·오류 검증·답변 확정 등 추론 과정 중심 구조로 재구성한다. 단순 정답 제공을 넘어 다양한 사고 경로와 자기 검증 과정을 학습할 수 있도록 설계하는 것이 핵심이다. 이를 통해 복잡한 문제 해결 능력을 갖춘 추론형 AI 개발 기반을 강화한다는 전략이다.

 

피지컬 AI 분야 데이터도 고도화된다. 기존 이미지·영상 데이터를 기반으로 시각(Vision)·언어(Language)·행동(Action)을 통합한 구조로 재구성해 로봇과 자율 시스템 학습에 활용할 수 있도록 한다. 단순 객체 인식을 넘어 시간 흐름에 따른 상황 변화와 객체 간 상호작용, 목표 기반 행동 생성까지 학습 가능한 데이터로 확장하는 것이 특징이다.

 

특히 연속 장면 데이터와 객체 움직임 정보를 활용해 로봇 행동 경로와 작업 목표를 학습할 수 있도록 설계함으로써, 최근 주목받는 피지컬 AI와 에이전틱 AI 기술 발전에도 활용될 전망이다.

 

재가공된 데이터는 향후 AI Hub를 통해 공개된다. 기업과 스타트업, 연구기관 등은 이를 활용해 생성형 AI와 로보틱스, 자율 시스템 개발에 활용할 수 있다.

 

업계에서는 AI 경쟁력이 단순 모델 성능을 넘어 데이터 품질과 추론 구조 확보 경쟁으로 이동하고 있다고 보고 있다. 특히 글로벌 빅테크들이 추론형 AI와 피지컬 AI 개발에 집중하는 가운데, 정부 차원의 데이터 인프라 고도화가 국내 AI 생태계 경쟁력 확보의 핵심 과제로 떠오르고 있다는 분석이다.

 

과기정통부 최동원 인공지능인프라정책관은 “기존 데이터 자산의 활용 가치를 높여 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 학습용 데이터를 확보할 수 있도록 하겠다”고 밝혔다.

 



배너