주간 'Tech Point’는 금주의 소식을 톺아보고 정리한 뉴스 큐레이션 콘텐츠입니다. 한 주를 돌아보며 독자 여러분께 한 번 더 알려드리고 싶은 소식과 그 외 이슈들을 함께 모아봤습니다. [더테크=전수연 기자] 5월 3주차 ‘주간 Tech Point’는 오픈AI의 신규 AI 모델 소식부터 살펴보겠습니다. 오픈AI는 13일(현지시간) 온라인으로 ‘스프링 업데이트’ 행사를 진행하고 최신 AI 모델 ‘GPT-4o’를 공개했습니다. GPT-4o의 o는 모든 것을 뜻하는 라틴어 접두사 Omni(옴니)를 의미합니다. GPT-4o는 텍스트 기반의 대화 방식에서 한 단계 진화해 사용자와 실시간으로 대화할 수 있으며 텍스트, 시각, 청각 데이터를 종합해 분석하고 처리할 수 있습니다. 또한 일반 텍스트로 파악하기 힘든 사용자의 말투, 억양을 인지하거나 수학 문제를 보고 풀이하는 등의 기능도 탑재했습니다. 이날 시연에서는 스마트폰으로 “발표에 앞서 긴장되는데 어떻게 해야 할까”라는 질문에 “깊이 심호흡을 하면 도움이 될 것”이라고 답했습니다. 또 개발자가 숨을 몰아쉬자 GPT-4o는 “그런 방식으로 숨을 쉬는 것은 도움이 되지 않는다”며 추가 답변을 제시했습니다. GP
[더테크=조재호 기자] “이제 구글은 본격적인 제미나이의 시대를 맞이했습니다” 순다르 피차이 구글 CEO는 이번 I/O에서 한층 더 강화된 인공지능(AI)을 소개했다. 이번에 공개된 제미나이 1.5 프로는 경쟁사인 오픈AI가 공개한 GPT-4o처럼 멀티모달(Multi Modal) 기능을 지원한다. 한 차원 더 높은 단계의 AI 경쟁을 예고한 것이다. 구글은 14일(현지시각) 미국 캘리포니아주 마운틴뷰에서 연례 개발자 회의인 ‘구글 I/O 2024’를 개최하고 자사의 생성형 AI인 제미나이를 중심으로 새로운 기술들을 선보였다. 피차이 CEO는 “제미나이 생태계에 상상할 수 있는 AI의 모든 것을 담았다”고 말했다. 지난해 공개된 제미나이는 업데이트를 거쳐 최신 모델인 제미나이 1.5 프로까지 발전했다. 제미나이 어드밴스드를 통해 이용자들에게 제공되는데 현재 파운데이션모델 중 가장 많은 100만 토큰을 지원하고 개발자들은 200만개까지 토큰을 활용할 수 있다. 제미나이를 통해 가장 큰 변화를 보일 부분은 검색 분야이다. ‘AI 개요’를 통해 검색 결과를 요약하고 관련 링크를 제공한다. 대화형, 사진을 포함한 이미지, 동영상으로도 검색을 진행할 수 있다. 이 기능
[더테크=조재호 기자] 생성형 인공지능(AI)의 선두주자 오픈AI가 신규 AI 모델을 선보였다. 사람처럼 보고 듣고 말하며 실시간 대화까지 할 수 있을 정도로 빠른 답변을 제공한다. 이번 신규 모델 공개는 경쟁사인 구글의 I/O를 하루 앞두고 진행됐는데, 멀티모달(Multi Modal)을 본격적으로 지원하는 모델이라는 점에서 큰 이슈가 될 전망이다. 오픈AI가 현지시각 13일 ‘스프링 업데이트’ 행사를 진행했다. 온라인으로 진행된 이번 행사에서는 최신 AI 모델 ‘GPT-4o’를 공개하고 시연했다. 챗GPT에 더 많은 도구와 언어를 지원한다, GPT-4o의 o는 모든 것을 뜻하는 라틴어 접두사 Omni(옴니)를 의미한다. 텍스트 기반의 대화 방식에서 한단계 더 진화했다는 의미다. GPT-4o는 사용자와 실시간으로 대화할 수 있으며 텍스트와 시각, 청각 데이터를 종합해 분석하고 처리할 수 있는 모델이다. 일반적인 텍스트로 파악하기 힘든 사용자의 말투나 억양을 파악한다거나 수학 문제를 보고 풀이하는 등의 기능을 선보였다. 오픈AI는 GPT-4o가 기존 GPT-4 Turbo 보다 빠른 답변 속도를 지녔으며 비용은 절반 수준이라고 설명했다. 지난해 11월 GPT-4
[더테크=이지영 기자] 네이버의 패션 특화 AI 스타트업의 신규 투자를 집행했다. 회사는 시장성 검증 이전의 극초기 스타트업에도 기술의 가치에 주목해 적극적인 투자를 집행해 성장을 지원하고 있다. 네이버 D2SF(D2 Startup Factory)가 패션에 특화된 경량 이미지 생성 AI 모델을 개발한 NXN Labs에 신규 투자를 진행했다고 8일 밝혔다. NXN Labs는 법인 설립 후 2개월 만에 투자 유치에 성공했는데 네이버 D2SF는 기술 가치와 잠재력에 주목해 투자를 결정했다. 이번 투자는 KB 인베스트먼트와 스마일게이트 인베스트먼트가 공동으로 참여했다. NXN Labs는 이커머스에 특화된 △가상 피팅 △가상 모델 제작 등에 활용할 수 있는 이미지 생성 AI 모델을 개발 중이다. 패션 업계를 대상으로 브랜드의 디자인적 특성을 보존하면서 고퀄리티 이미지를 생성하는 솔루션을 준비하고 있다. 회사의 솔루션은 기존 패션 브랜드가 룩북 및 광고 이미지 제작에 들던 시간과 비용을 효율화할 것으로 기대한다. 현재 NXN Labs는 자체 개발한 모델을 활용해 패션 브랜드와 국내 이커머스 플랫폼 등과 기술 검증을 진행 중이며 사용성을 점검하고 있다. 생성된 이미지 퀄
[더테크=조재호 기자] 메타(Meta)가 인간의 시각인식을 모방한 방식으로 훈련하는 인공지능(AI) 모델 I-JEPA의 후속작을 출시했다. 메타는 지난해 공개한 ‘이미지 공동 임베딩 예측 아키텍처(I-JEPA)’라는 이름의 이미지 데이터 학습 AI 모델의 최신 버전인 ‘V-JEPA’를 15일(현지시각) 공개했다. 아울러 해당 모델을 연구하고 확장할 수 있도록 CC BY-NC(저작자표시-비영리) 라이선스로 공개했다고 15일(현지시각) 밝혔다. V-JEPA(Video Joint Embedding Predictive Architecture)는 기존 버전에서 이미지로 데이터를 학습하는 방식에서 V로 바뀐 비디오 영상물을 학습하는 모델이다. 얀 르쿤(Yann LeCun) 메타 VP 겸 최고 AI 과학자는 “우리의 목표는 인간처럼 더 많은 것을 배울 수 있는 일반 인공지능을 구축하는 것”이라며 “복잡한 작업이 필요한 서비스에서 효율적으로 학습하고 계획을 세울 수 있도록 세상이 돌아가는 방식을 파악해 낯선 환경에서도 쉽게 적응할 수 있는 모델을 형성하는 것”이라고 밝혔다. V-JEPA는 영상에서 누락되거나 가려진 부분을 예측하는 방식으로 학습한다. 기존 이미지 인식 모델
[더테크=조재호 기자] 마이크로소프트가 14일 올해 주목해야 할 주요 인공지능(AI) 트렌드를 공개했다. 마이크로소프트(이하 MS)는 2024년에도 AI가 사람들의 일상과 업무 방식을 크게 변화시킬 것으로 예상했다. 아울러 AI 기술 통합과 발전으로 문제 해결을 돕는 기술에 쉽게 접근할 수 있으며 삶을 더 풍요롭게 만들어 줄 것으로 기대했다. MS가 선정한 AI 트렌드는 △소형언어모델 △멀티모달 △과학분야 AI 등 총 3가지다. 소형언어모델(SLMs)은 AI 분야에서 더욱 중요한 역할을 할 것으로 예상했다. 방대한 양의 데이터로 학습된 대형언어모델(LLMs)의 경우 파라미터가 수천억개 이상이기 때문에 저장 공간이 많이 필요하고 자원 소모도 크다. 파라미터는 언어 모델이 문장을 생성하거나 해석할 때 사용되는 변수를 말한다. 반면 소형언어모델은 수십억 개의 파라미터로 구성돼 학습에 필요한 시간과 자원을 덜 소모한다. 모바일 기기에서도 실행할 수 있고 인터넷이 지원되지 않는 오프라인 상태에서도 사용할 수 있다는 것도 장점으로 꼽힌다. 선별된 고품질의 학습 데이터를 사용해 보다 정확한 결과를 얻을 수 있다. 이와관련 MS 연구진은 특정 야에서 대형언어모델과 동등하거
[더테크=조재호 기자] 국내 연구진이 생성형 인공지능(AI)과 시각지능 기술을 결합해 문장을 입력하면 2초만에 이미지를 만드는 기술을 공개했다. 초고속 생성형 시각지능 연구에 탄력이 붙을 전망이다. 한국전자통신연구원(ETRI)은 이미지 생성 속도가 기존 대비 5배 빠른 AI ‘코알라(KOALA)’ 3종 모델과 이미지나 영상 등으로 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종 등을 일반에 공개한다고 26일 밝혔다. 우선 코알라 모델은 2.56B(25억) 파라미터를 지식 증류 기법을 적용해 700M(7억)으로 줄였다. 파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가하기 때문이다. 연구진은 모델 크기를 1/3로 축소하고 고해상도 이미지 기존 대비 2배, 달리(DALL-E) 3 대비 5배 가량 빠르게 개선했다. 이미지 생성 속도를 2초 내외로 만들어 국내외 경쟁 속에서 8GB 정도의 그래픽처리장치(GPU)에서도 구동할 수 있도록 만들었다. ETRI는 자체 개발한 파라미터별 ‘코알라’ 3종 모델을 허깅페이스에 공개했으며, 기존 공개 소프트웨어인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼
[더테크=조재호 기자] 카카오브레인이 멀티모달 언어모델 오픈소스 ‘허니비(Honeybee)’를 깃허브에 공개했다. 카카오브레인은 19일 이미지와 대규모 언어모델을 연결할 수 있는 새로운 모듈을 제안하고자 높은 수준의 멀티모달 언어모델(Multimodal Large Language Model, MLLM) 오픈소스 ‘허니비’를 공개했다. 현재 멀티모달 언어모델 연구는 공개된 모델의 수가 적고 학습 방법이 자세히 공개되지 않아 개발이 어려운 상황이다. 이에 카카오브레인은 멀티모달 언어모델의 발전에 기여하고자 자체 개발한 ‘허니비’의 소스코드를 공개하기로 결정했다. 김일두 카카오브레인 각자 대표는 “허니비 모델의 추론을 가능하게 하는 코드도 깃허브에 공개했으며 이를 활용한 서비스 확장을 고려중”이라며 “더욱 발전된 AI 모델 확보를 위해 끊임없이 연구개발을 진행할 것”이라고 전했다. MLLM은 이미지와 명령어를 입력하면 텍스트로 답변하는 모델로 텍스트로만 입·출력하는 대규모 언어모델의 확장된 형태라고 할 수 있다. 이미지와 텍스트를 모두 입력할 수 있어 이미지가 담긴 장면을 묘사하거나 이미와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있는 능력을 지녔
[더테크=전수연 기자] LG전자가 로봇과 AI 기술 기반의 스마트홈 허브를 선보인다. 스마트홈 AI는 사용자의 요구뿐만 아니라 다양한 이상상황을 감지하는 등의 역할을 수행할 것으로 보인다. LG전자는 CES 2024에서 생활가전 사업의 목표인 ‘가사 해방을 통한 삶의 가치 제고(Zero Labor Home, Makes Quality Time)’ 실현을 가속할 스마트홈 AI 에이전트를 첫 공개한다고 27일 밝혔다. 스마트홈 AI 에이전트는 스마트홈 허브를 포함해 생활 전반에 도움을 주는 만능 가사생활도우미 역할을 수행함으로써 스마트홈의 가치를 높이는 역할이다. 스마트홈 AI는 고도화된 로봇과 AI 기술이 적용돼 두 다리에 달린 바퀴와 자율 주행 기술을 통해 집안을 자유롭게 이동한다. 음성·음향·이미지 인식 등을 접목한 멀티모달(Multi Modal) 센싱과 첨단 AI 프로세스를 토대로 사용자의 상황과 상태를 인지하고 능동적으로 소통한다. 이와 함께 스마트홈 AI는 관절이 달린 두 다리를 통해 카펫이나 바닥의 장애물을 자연스럽게 넘는 움직임, 디스플레이에 표출되는 표정 등을 살린 감정표현도 가능하다. 또한 미래형 스마트홈 허브로서 가전, IoT 기기를 연결하고
[더테크 뉴스] 구글의 새로운 인공지능(AI) 모델 ‘제미나이’를 공개했다. 한차례 출시가 연기되면서 내년 초 공개될 것으로 알려졌는데 연내 출시를 강행했다. 최근 오픈AI 이슈와 AI얼라이언스 결성 등 AI 개발 경쟁이 치열해지자 서둘러 움직인 것으로 보인다. 구글은 현지시각 12월 6일, 새로운 AI 모델인 ‘제미나이(Gemini)’를 공개했다. 제미나이는 멀티모달 기반의 AI 모델로 텍스트와 이미지, 오디오, 동영상, 코드 등 다양한 유형의 정보를 이해하고 조합해 활용할 수 있는 모델이다. 가령 사람이 말로 질문을 하면 답변을 텍스트나 이미지로 할 수 있다는 이야기다. 팜2에 이은 신규 AI 모델인 제미나이는 세 가지 크기로 최적화됐다. 방대하고 복잡한 작업에 적합한 제미나이 울트라(Gemini Ultra)와 다양한 작업에 활용하고 확장성이 넓은 제미나이 프로(Gemini Pro), 스마트폰을 비롯한 다양한 IT 디바이스에서 활용될 수 있는 제미나이 나노(Gemini Nano) 등이다. 순다르 피차이(Sundar Pichai) 구글 CEO는 “구글이 한 기업으로서 진행했던 가장 큰 과학적 및 기술적 결과물 중 하나”라며 “앞으로 다가올 변화와 제미나이가
[더테크=조재호 기자] 알리바바가 자체 개발한 거대언어모델 ‘동이치엔원’의 경량화 버전을 오픈소스로 공개했다. 알리바바 클라우드는 자체 개발한 LLM의 720억개 파라미터 버전 ‘큐원-72B’와 18억개 파라미터 버전 ‘큐원-1.8B’를 자사 AI 모델 커뮤니티 모델스코프와 협업 AI 플랫폼 허깅페이스에 오픈소스로 공개했다고 5일 밝혔다. 해당 모델 공개로 알리바바 클라우드는 18억, 70억, 140억 및 720억의 매개변수를 지닌 LLM을 공개했다. 아울러 오디오 이해 모델 ‘큐원-오디오(Qwen-Audio)’ 및 대화형으로 미세 조정된 버전인 ‘큐원-오디오-챗(Qwen-Audio-Chat)’도 추가로 공개했다. 징런 저우(Jingren Zhou) 알리바바 클라우드 CTO는 "오픈소스 생태계를 구축하는 것은 LLM 및 AI 애플리케이션 개발에 중요한 일로 알리바바 클라우드는 모든 사람이 생성형 AI 활용할 수 있도록 하는 것을 목표로 한다“며 ”자사의 최첨단 기술을 공유하고 파트너들과 함께 오픈소스 커뮤니티의 발전을 촉진해 나갈 것“이라고 밝혔다. 큐원-72B는 주요 오픈소스 모델보다 뛰어난 성능을 보여준다. 모델의 성능을 확인할 수 있는 벤치마크의 대규모
[더테크=전수연 기자] 한국전자통신연구원(ETRI)이 인공지능(AI)을 활용해 사물의 물성을 파악하고 제어할 수 있는 기술을 개발했다. 이번 기술은 운송과 의료, 제조 등 여러 자동화 산업 영역에 서 사용될 수 있어 다양하게 응용될 것으로 보인다. (관련기사: ETRI, IoT‧스마트시티 국제표준화 역대 최고 성과) (관련기사: 어려운 한문 고서, AI로 번역 '뚝딱') ETRI는 유연한 멀티모달(여러 방식을 동시에 다루는 것) 센서를 통해 다양한 물체의 크기, 형상, 물성을 인지하는 지능형 로봇 그리퍼를 개발했다. 해당 기술은 기존 수동 제어 시스템의 문제점을 극복하고 물체의 크기, 물성을 정확히 감지해 능동적으로 피드백을 제공할 수 있다. 그리퍼는 일상에서 채소나 과일을 손으로 눌러보고 판단하듯 유연 멀티모달 촉각센서를 통해 물체의 초기 크기와 변형 정도를 감지한다. 이를 통해 물체의 정확한 물성을 판단하고 물체를 최적의 힘으로 잡거나 옮길 수 있다. 그리퍼의 유연 멀티모달 센서는 감지 소재와 전극 사이 에어갭을 미세하게 조절해 압력과 굽힘센서 감지 범위 및 민감도를 선택 조절하게 개발됐다. 또 센서는 로봇 그리퍼에 장착돼 물체에 가해지는 압력과 그리퍼의