더테크 (THE TECH) - 대한민국 대표 블루오션 테크 미디어

주메뉴 바로가기
본문 바로가기

2024.05.09 (목)

#멀티모달

네이버 D2SF, 이미지 생성 AI 스타트업에 신규 투자

[더테크=이지영 기자] 네이버의 패션 특화 AI 스타트업의 신규 투자를 집행했다. 회사는 시장성 검증 이전의 극초기 스타트업에도 기술의 가치에 주목해 적극적인 투자를 집행해 성장을 지원하고 있다. 네이버 D2SF(D2 Startup Factory)가 패션에 특화된 경량 이미지 생성 AI 모델을 개발한 NXN Labs에 신규 투자를 진행했다고 8일 밝혔다. NXN Labs는 법인 설립 후 2개월 만에 투자 유치에 성공했는데 네이버 D2SF는 기술 가치와 잠재력에 주목해 투자를 결정했다. 이번 투자는 KB 인베스트먼트와 스마일게이트 인베스트먼트가 공동으로 참여했다. NXN Labs는 이커머스에 특화된 △가상 피팅 △가상 모델 제작 등에 활용할 수 있는 이미지 생성 AI 모델을 개발 중이다. 패션 업계를 대상으로 브랜드의 디자인적 특성을 보존하면서 고퀄리티 이미지를 생성하는 솔루션을 준비하고 있다. 회사의 솔루션은 기존 패션 브랜드가 룩북 및 광고 이미지 제작에 들던 시간과 비용을 효율화할 것으로 기대한다. 현재 NXN Labs는 자체 개발한 모델을 활용해 패션 브랜드와 국내 이커머스 플랫폼 등과 기술 검증을 진행 중이며 사용성을 점검하고 있다. 생성된 이미지 퀄
- 이지영 기자
- 2024-05-08 10:33
보면서 학습하는 AI 모델, 메타 ‘V-JEPA’ 공개

[더테크=조재호 기자] 메타(Meta)가 인간의 시각인식을 모방한 방식으로 훈련하는 인공지능(AI) 모델 I-JEPA의 후속작을 출시했다. 메타는 지난해 공개한 ‘이미지 공동 임베딩 예측 아키텍처(I-JEPA)’라는 이름의 이미지 데이터 학습 AI 모델의 최신 버전인 ‘V-JEPA’를 15일(현지시각) 공개했다. 아울러 해당 모델을 연구하고 확장할 수 있도록 CC BY-NC(저작자표시-비영리) 라이선스로 공개했다고 15일(현지시각) 밝혔다. V-JEPA(Video Joint Embedding Predictive Architecture)는 기존 버전에서 이미지로 데이터를 학습하는 방식에서 V로 바뀐 비디오 영상물을 학습하는 모델이다. 얀 르쿤(Yann LeCun) 메타 VP 겸 최고 AI 과학자는 “우리의 목표는 인간처럼 더 많은 것을 배울 수 있는 일반 인공지능을 구축하는 것”이라며 “복잡한 작업이 필요한 서비스에서 효율적으로 학습하고 계획을 세울 수 있도록 세상이 돌아가는 방식을 파악해 낯선 환경에서도 쉽게 적응할 수 있는 모델을 형성하는 것”이라고 밝혔다. V-JEPA는 영상에서 누락되거나 가려진 부분을 예측하는 방식으로 학습한다. 기존 이미지 인식 모델
- 조재호 기자
- 2024-02-16 13:55
마이크로소프트, 2024년 주목할 AI 트렌드 공개

[더테크=조재호 기자] 마이크로소프트가 14일 올해 주목해야 할 주요 인공지능(AI) 트렌드를 공개했다. 마이크로소프트(이하 MS)는 2024년에도 AI가 사람들의 일상과 업무 방식을 크게 변화시킬 것으로 예상했다. 아울러 AI 기술 통합과 발전으로 문제 해결을 돕는 기술에 쉽게 접근할 수 있으며 삶을 더 풍요롭게 만들어 줄 것으로 기대했다. MS가 선정한 AI 트렌드는 △소형언어모델 △멀티모달 △과학분야 AI 등 총 3가지다. 소형언어모델(SLMs)은 AI 분야에서 더욱 중요한 역할을 할 것으로 예상했다. 방대한 양의 데이터로 학습된 대형언어모델(LLMs)의 경우 파라미터가 수천억개 이상이기 때문에 저장 공간이 많이 필요하고 자원 소모도 크다. 파라미터는 언어 모델이 문장을 생성하거나 해석할 때 사용되는 변수를 말한다. 반면 소형언어모델은 수십억 개의 파라미터로 구성돼 학습에 필요한 시간과 자원을 덜 소모한다. 모바일 기기에서도 실행할 수 있고 인터넷이 지원되지 않는 오프라인 상태에서도 사용할 수 있다는 것도 장점으로 꼽힌다. 선별된 고품질의 학습 데이터를 사용해 보다 정확한 결과를 얻을 수 있다. 이와관련 MS 연구진은 특정 야에서 대형언어모델과 동등하거
- 조재호 기자
- 2024-02-14 11:53
ETRI, 기존 대비 5배 빠른 이미지 생성 AI ‘코알라’ 공개

[더테크=조재호 기자] 국내 연구진이 생성형 인공지능(AI)과 시각지능 기술을 결합해 문장을 입력하면 2초만에 이미지를 만드는 기술을 공개했다. 초고속 생성형 시각지능 연구에 탄력이 붙을 전망이다. 한국전자통신연구원(ETRI)은 이미지 생성 속도가 기존 대비 5배 빠른 AI ‘코알라(KOALA)’ 3종 모델과 이미지나 영상 등으로 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종 등을 일반에 공개한다고 26일 밝혔다. 우선 코알라 모델은 2.56B(25억) 파라미터를 지식 증류 기법을 적용해 700M(7억)으로 줄였다. 파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가하기 때문이다. 연구진은 모델 크기를 1/3로 축소하고 고해상도 이미지 기존 대비 2배, 달리(DALL-E) 3 대비 5배 가량 빠르게 개선했다. 이미지 생성 속도를 2초 내외로 만들어 국내외 경쟁 속에서 8GB 정도의 그래픽처리장치(GPU)에서도 구동할 수 있도록 만들었다. ETRI는 자체 개발한 파라미터별 ‘코알라’ 3종 모델을 허깅페이스에 공개했으며, 기존 공개 소프트웨어인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼
- 조재호 기자
- 2024-01-26 11:42
카카오, 이미지 인식하는 MLLM ‘허니비’ 깃허브 공개

[더테크=조재호 기자] 카카오브레인이 멀티모달 언어모델 오픈소스 ‘허니비(Honeybee)’를 깃허브에 공개했다. 카카오브레인은 19일 이미지와 대규모 언어모델을 연결할 수 있는 새로운 모듈을 제안하고자 높은 수준의 멀티모달 언어모델(Multimodal Large Language Model, MLLM) 오픈소스 ‘허니비’를 공개했다. 현재 멀티모달 언어모델 연구는 공개된 모델의 수가 적고 학습 방법이 자세히 공개되지 않아 개발이 어려운 상황이다. 이에 카카오브레인은 멀티모달 언어모델의 발전에 기여하고자 자체 개발한 ‘허니비’의 소스코드를 공개하기로 결정했다. 김일두 카카오브레인 각자 대표는 “허니비 모델의 추론을 가능하게 하는 코드도 깃허브에 공개했으며 이를 활용한 서비스 확장을 고려중”이라며 “더욱 발전된 AI 모델 확보를 위해 끊임없이 연구개발을 진행할 것”이라고 전했다. MLLM은 이미지와 명령어를 입력하면 텍스트로 답변하는 모델로 텍스트로만 입·출력하는 대규모 언어모델의 확장된 형태라고 할 수 있다. 이미지와 텍스트를 모두 입력할 수 있어 이미지가 담긴 장면을 묘사하거나 이미와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있는 능력을 지녔
- 조재호 기자
- 2024-01-19 10:21
CES 2024에서 'LG 스마트홈 AI 에이전트' 첫 공개

[더테크=전수연 기자] LG전자가 로봇과 AI 기술 기반의 스마트홈 허브를 선보인다. 스마트홈 AI는 사용자의 요구뿐만 아니라 다양한 이상상황을 감지하는 등의 역할을 수행할 것으로 보인다. LG전자는 CES 2024에서 생활가전 사업의 목표인 ‘가사 해방을 통한 삶의 가치 제고(Zero Labor Home, Makes Quality Time)’ 실현을 가속할 스마트홈 AI 에이전트를 첫 공개한다고 27일 밝혔다. 스마트홈 AI 에이전트는 스마트홈 허브를 포함해 생활 전반에 도움을 주는 만능 가사생활도우미 역할을 수행함으로써 스마트홈의 가치를 높이는 역할이다. 스마트홈 AI는 고도화된 로봇과 AI 기술이 적용돼 두 다리에 달린 바퀴와 자율 주행 기술을 통해 집안을 자유롭게 이동한다. 음성·음향·이미지 인식 등을 접목한 멀티모달(Multi Modal) 센싱과 첨단 AI 프로세스를 토대로 사용자의 상황과 상태를 인지하고 능동적으로 소통한다. 이와 함께 스마트홈 AI는 관절이 달린 두 다리를 통해 카펫이나 바닥의 장애물을 자연스럽게 넘는 움직임, 디스플레이에 표출되는 표정 등을 살린 감정표현도 가능하다. 또한 미래형 스마트홈 허브로서 가전, IoT 기기를 연결하고
- 전수연 기자
- 2023-12-27 11:48
구글 ‘제미나이’ 공개, 멀티모달 기반의 신규 AI 모델

[더테크 뉴스] 구글의 새로운 인공지능(AI) 모델 ‘제미나이’를 공개했다. 한차례 출시가 연기되면서 내년 초 공개될 것으로 알려졌는데 연내 출시를 강행했다. 최근 오픈AI 이슈와 AI얼라이언스 결성 등 AI 개발 경쟁이 치열해지자 서둘러 움직인 것으로 보인다. 구글은 현지시각 12월 6일, 새로운 AI 모델인 ‘제미나이(Gemini)’를 공개했다. 제미나이는 멀티모달 기반의 AI 모델로 텍스트와 이미지, 오디오, 동영상, 코드 등 다양한 유형의 정보를 이해하고 조합해 활용할 수 있는 모델이다. 가령 사람이 말로 질문을 하면 답변을 텍스트나 이미지로 할 수 있다는 이야기다. 팜2에 이은 신규 AI 모델인 제미나이는 세 가지 크기로 최적화됐다. 방대하고 복잡한 작업에 적합한 제미나이 울트라(Gemini Ultra)와 다양한 작업에 활용하고 확장성이 넓은 제미나이 프로(Gemini Pro), 스마트폰을 비롯한 다양한 IT 디바이스에서 활용될 수 있는 제미나이 나노(Gemini Nano) 등이다. 순다르 피차이(Sundar Pichai) 구글 CEO는 “구글이 한 기업으로서 진행했던 가장 큰 과학적 및 기술적 결과물 중 하나”라며 “앞으로 다가올 변화와 제미나이가
- 조재호 기자
- 2023-12-07 10:06
알리바바, 자체 개발 LLM ‘큐원’ 오픈소스로 공개

[더테크=조재호 기자] 알리바바가 자체 개발한 거대언어모델 ‘동이치엔원’의 경량화 버전을 오픈소스로 공개했다. 알리바바 클라우드는 자체 개발한 LLM의 720억개 파라미터 버전 ‘큐원-72B’와 18억개 파라미터 버전 ‘큐원-1.8B’를 자사 AI 모델 커뮤니티 모델스코프와 협업 AI 플랫폼 허깅페이스에 오픈소스로 공개했다고 5일 밝혔다. 해당 모델 공개로 알리바바 클라우드는 18억, 70억, 140억 및 720억의 매개변수를 지닌 LLM을 공개했다. 아울러 오디오 이해 모델 ‘큐원-오디오(Qwen-Audio)’ 및 대화형으로 미세 조정된 버전인 ‘큐원-오디오-챗(Qwen-Audio-Chat)’도 추가로 공개했다. 징런 저우(Jingren Zhou) 알리바바 클라우드 CTO는 "오픈소스 생태계를 구축하는 것은 LLM 및 AI 애플리케이션 개발에 중요한 일로 알리바바 클라우드는 모든 사람이 생성형 AI 활용할 수 있도록 하는 것을 목표로 한다“며 ”자사의 최첨단 기술을 공유하고 파트너들과 함께 오픈소스 커뮤니티의 발전을 촉진해 나갈 것“이라고 밝혔다. 큐원-72B는 주요 오픈소스 모델보다 뛰어난 성능을 보여준다. 모델의 성능을 확인할 수 있는 벤치마크의 대규모
- 조재호 기자
- 2023-12-05 13:14
[인터뷰]로봇이 잡아도 안 찌그러지는 토마토?

[더테크=전수연 기자] 한국전자통신연구원(ETRI)이 인공지능(AI)을 활용해 사물의 물성을 파악하고 제어할 수 있는 기술을 개발했다. 이번 기술은 운송과 의료, 제조 등 여러 자동화 산업 영역에 서 사용될 수 있어 다양하게 응용될 것으로 보인다. (관련기사: ETRI, IoT‧스마트시티 국제표준화 역대 최고 성과) (관련기사: 어려운 한문 고서, AI로 번역 '뚝딱') ETRI는 유연한 멀티모달(여러 방식을 동시에 다루는 것) 센서를 통해 다양한 물체의 크기, 형상, 물성을 인지하는 지능형 로봇 그리퍼를 개발했다. 해당 기술은 기존 수동 제어 시스템의 문제점을 극복하고 물체의 크기, 물성을 정확히 감지해 능동적으로 피드백을 제공할 수 있다. 그리퍼는 일상에서 채소나 과일을 손으로 눌러보고 판단하듯 유연 멀티모달 촉각센서를 통해 물체의 초기 크기와 변형 정도를 감지한다. 이를 통해 물체의 정확한 물성을 판단하고 물체를 최적의 힘으로 잡거나 옮길 수 있다. 그리퍼의 유연 멀티모달 센서는 감지 소재와 전극 사이 에어갭을 미세하게 조절해 압력과 굽힘센서 감지 범위 및 민감도를 선택 조절하게 개발됐다. 또 센서는 로봇 그리퍼에 장착돼 물체에 가해지는 압력과 그리퍼의
- 전수연 기자
- 2023-10-05 17:13
한컴케어링크, AI 기반 바이오 빅데이터 사업 강화

[더테크=조재호 기자] 디지털 헬스케어 기업이자 유전체 분석을 전문으로 하는 한컴케어링크가 인공지능(AI) 기반 바이오 빅데이터 사업을 강화한다. 그간 쌓아온 분석 능력을 토대로 신규 비즈니스 사업 영역 확대를 위한 행보에 나섰다. 한컴케어링크는 AI 기반 바이오 빅데이터 기업 바스젠바이오, 바이오 빅데이터 분석 기술 보유 기업 쓰리빅스와 삼자 간 업무 협약을 체결했다고 11일 밝혔다. 세 기업은 AI를 토대로 대규모 멀티모달(Multi-Modal) 유전체 코호트를 연구해 새로운 바이오마커를 발굴하고 진단 방법을 개발하기 위해 협력한다. 멀티모달은 데이터를 시청각을 비롯한 방식으로 변환해 유전체 및 이미지 처리 정보 등으로 전환하고 인식하는 기술을 말한다. 이번 협약으로 AI 기술을 기반으로 질병을 예측하고 신약 후보 물질을 찾는 등 글로벌 제약사를 대상으로 한 사업도 공동 진행할 예정이다. 한컴케어링크 관계자는 더테크에 “이번 협약으로 AI를 기반으로 한 유전체 분석 역량을 강화하고 유의미한 결과 만들어 낼 수 있도록 노력할 것”이라며 “최근 질병관리청의 과제 수행기관으로 선정될 만큼 축적된 유전체 분석 능력을 적극 활용할 수 있을 것으로 본다”고 말했다.
- 조재호 기자
- 2023-09-11 10:06
LG의 초거대 멀티모달 AI, ‘엑사원 2.0’ 공개

[더테크=조재호 기자] LG AI연구원이 ‘엑사원 2.0’(EXAONE 2.0)을 공개했다. 올해 하반기부터 국내에서 선보일 초거대 인공지능(AI) 중 하나인 엑사원은 이중 언어모델과 양방향 멀티모달 기능을 강조했다. LG AI연구원은 19일 진행된 서울 강서구 마곡 LG사이언스파크 컨버전스홀에서 'LG AI 토크 콘서트 2023'를 열고 엑사원 2.0.을 공개했다. 엑사원 2.0은 기존 모델 대비 △비율 효율성 △학습데이터 품질 △맞춤형 모델 측면에서 대폭 강화됐다. 초거대 AI의 약점으로 지적된 고비용 이슈를 의식해 경량화, 최적화 기술에 신경 써 이전 버전보다 저렴한 비용으로 한층 강화된 성능을 지녔다. AI가 학습하는 언어 데이터의 상당수가 영어인 점을 고려해 한국어와 영어를 동시에 이해하고 답변할 수 있는 이중 언어(Bilingual) 모델로 개발됐다. 파트너십을 통해 4500만건의 특허와 논문 등 전문 문헌과 3억5000만장의 이미지를 학습했다. 고객의 니즈를 고려해 커스터마이징이 가능한 모델로 설계돼 용도나 예산에 맞춰 모델의 크기와 종류, 사용 언어를 선택할 수 있다. 이번 행사에서 LG AI연구원은 엑사원 2.0 모델을 기반으로 고도화된 3대
- 조재호 기자
- 2023-07-19 16:59

이전

1

많이 본 뉴스

(주)빅테크 | 제호 : 더테크 (THE TECH) | 신문등록번호: 서울아53318 | 등록ㆍ발행일자: 2020.10.7 | 사업자번호 : 168-86-01987
발행ㆍ편집인 : 서명수 | 개인정보관리 책임자 : 이지영 | 청소년보호 책임자 : 이지영
주소 : 서울특별시 마포구 동교로 162-10, 4층 (서교동, 이혜2 빌딩) | 전화번호: 02-6952-6992 | 기사제보 : press@the-tech.co.kr
Copyright @더테크 (THE TECH) Corp. All rights reserved.

UPDATE: 2024년 05월 09일 16시 40분