2025.05.23 (금)
T 뉴스
멀티미디어
독자 · 소통
[더테크=전수연 기자] 학습된 데이터를 통해, 처음 본 이미지의 특징을 인간처럼 설명하는 AI가 공개됐다. LG AI연구원은 18일(현지시간) 캐나다 밴쿠버에서 진행 중인 컴퓨터 비전 학회 ‘CVPR(Computer Vision and Pattern Recognition, 컴퓨터 비전 및 패턴 인식) 2023’에서 ‘캡셔닝 AI(Captioning AI)’를 처음 선보였다. 이와 관련 LG 관계자는 <더테크>에 “캡셔닝은 AI가 이미지를 얼마나 정확하게 잘 읽어내는지에 관련된 기술”이라며, “이미지와 텍스트를 양방향으로 생성할 수 있는 멀티모달 초거대 AI를 2021년 말 공개한 이후 꾸준히 개발해 관련 기술을 고도화했다”고 설명했다. 생성형 AI 상용화 서비스 ‘캡셔닝 AI’는 처음 보는 이미지까지 자연어로 설명할 수 있는 AI로, 이미지 검색에 활용되는 문장이나 키워드 등 메타 데이터를 생성한다. 또 캡셔닝 AI는 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 ‘제로샷 이미지 캡셔닝(Zero-shot Image Captioning)’ 기술이 적용됐다. 제로샷 이미지 캡셔닝은 AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로
더테크는 ‘스마트 테크 전문‘ 미디어입니다. AI, 사물인터넷, 미래모빌리티 등 인더스트리 4.0 시대를 이끌어갈 딥테크 분야를 중심으로 다양한 ICT 산업컨텐츠를 제공하고 있습니다. 뉴스레터 발송을 위한 최소한의 개인정보를 수집하고 있습니다. 수집된 정보는 발송 외 다른 목적으로 이용되지 않으며 서비스 종료가 되거나 구독을 해지할 경우 즉시 파기됩니다.