[더테크=전수연 기자] 음성 AI 기업 미디어젠이 구글이 개발한 E2E(기업들의 웹 사이트 간에 행해지는 정보나 거래의 교환) 음성인식 시스템인 ‘컨포머(Comformer)’를 벤치마킹해 기존 컨포머의 성능을 유지하면서 처리 속도를 약 40% 향상시킬 수 있는 기능을 선보인다. 미디어젠은 새로운 컨볼루션 네트워크 구조가 증강된 트랜스포머 기반 음성인식 시스템을 개발했다고 26일 밝혔다. 이번 기술 개발은 한국전자통신연구원(ETRI)의 연구인력 현장지원 프로그램을 통해 이뤄졌다. LJSpeech 데이터셋을 이용한 음성인식 실험결과 구글의 컨포머는 CER 4.8%, WER 19.6%의 성능을 보였고 미디어젠의 음성인식 시스템은 CER 4.8%, WER 19.2%의 성능을 보였다. 미디어젠은 이를 바탕으로 자사 시스템이 구글 컨포머 수준의 음성인식 성능을 유지하며 처리속도는 컨포머 서브샘플링 40ms 대비 80ms로 향상됐음을 확인할 수 있었다. 이와 함께 베이스라인이 되는 트랜스포머 기반 음성인식 시스템은 CER 6.9%, WER 23%의 인식 성능을 나타냈다. 본 실험은 순수 신경망의 성능을 평가하기 위해 빔서치 등의 백엔드 처리를 수행하지 않고 아웃풋 노드의
[더테크=전수연 기자] 국내 인공지능(AI) 전문기업 스켈터랩스가 다양한 발성 특성화 환경을 고려한 음성인식 솔루션을 통해 병원 콣센터 서비스를 지원한다. 스켈터랩스는 분당서울대학교병원 콜센터의 상담 서비스 고도화를 위해 AI 기반 음성인식(STT) 기술을 공급한다고 4일 밝혔다. 스켈터랩스는 분당서울대학교병원 고객 상담 만족도 향상과 상담원들의 효율적인 업무 수행을 위해 음성인식 기술을 제공한다. 상담원과 고객의 통화 내용을 실시간으로 인식해 텍스트로 변환해주는 자동화 시스템 도입이 핵심이다. 분당서울대학교병원은 음성인식 기술 도입을 통해 △상담 기록의 정확성 향상 △상담 만족도와 병원 신뢰 증진 △의료진 정보 검색 최적화 등 콜센터의 업무 효율과 사용자 만족도를 강화할 것으로 예상했다. 이번 음성인식 기술 지원에 활용된 스켈터랩스의 AIQ+Speech 솔루션은 딥러닝 기반의 음성-언어모델이다. 솔루션은 음성이 입력되면 실시간 텍스트를 변환하는 End-to-End(E2E) 모델이 적용돼있어 새로운 데이터를 신속하게 학습하는 기능과 특정 도메인에 맞춰 모델을 구축하는 유연성을 모두 갖췄다. 이와 함께 솔루션은 발화자의 다양한 발성 특성과 발화 환경에서도 높은
[더테크=조명의 기자] 셀바스AI는 새롭게 개발한 경량화된 E2E 음성인식 기술이 중대재해처벌법 및 장애인차별금지법(이하 장차법) 등 법 대응 솔루션으로 활용되고 있다고 31일 밝혔다. 경량화된 엔드투엔드 음성인식 엔진은 기존 대비 메모리 사이즈가 약 99% 감소되고, 동시접속 채널 수는 4배 증가됐다. 저사양 하드웨어 환경은 물론 인터넷 연결 없이도 활용 가능해 스마트폰, 스마트워치 등 모바일 기기를 비롯해 정보보호가 중요한 공공, 기업, 병원 내 서비스에도 적용 가능하다. 최근 법 전면 적용 및 개정과 관련해 음성인식 및 음성합성 기술의 활용처가 베리어프리 키오스크, 스마트 안전장비 등으로 확대되고 있다. 장애인, 고령인 등 사회적 약자도 쉽게 사용할 수 있는 베리어프리 키오스크는 내년 1월부터 장차법 기준을 충족해야 한다. 이에 대응해 셀바스AI는 베리어프리 키오스크에서 음성으로 내용을 듣거나 조작 가능하도록 경량화된 음성인식을 적용 중에 있다. 또한 중대재해처벌법 시행으로 건설, 제조 현장 내 안전관리에 대한 사업주의 사고 예방 의무 이행이 필수화되면서 음성인식 안전모 등 스마트 안전장비에도 음성기술을 적용 중이다. ‘셀비 노트’를 통해 현장 내 대화
[더테크=조명의 기자] 셀바스AI가 글로벌 오디오북 시장에 진출한다. 18일 셀바스AI에 따르면 오디오북 제작이 쉬워지는 ‘AI 오디오북 에디터’를 새롭게 출시했다. AI 목소리 콘텐츠 제작 서비스인 ‘오디로(odiro)’를 기반으로 한 AI 오디오북 에디터는 AI 기술을 접목GO 오디오북 제작 환경에 최적화한 AI 오디오북 전문 제작 툴이다. 딥러닝 기반 음성합성 기술과 AI 문서 분석 기술 등 인공지능 기술을 적용해 출판사 등 사용자가 직접 쉽고 빠르게 오디오북을 제작할 수 있다. 특히 평균 4~8주 소요되는 성우 오디오북 제작기간을 90% 이상 줄일 수 있다는 셀바스AI 측의 설명이다. ‘셀프 제작’ 과 ‘제작 대행’ 중 선택해 사용할 수 있으며, 전문가의 컨설팅도 받아 볼 수 있다. AI 오디오북 에디터에는 셀바스AI의 딥러닝 기반 음성합성 솔루션 ‘Selvy deepTTS’를 적용했다. AI 기술로 사람의 호흡, 억양, 감성 등 다양한 음성 요소를 정교하게 모델링해 구현해 사람처럼 자연스럽고 유창한 합성 음성 생성이 가능하다. 오디오북 제작 환경을 고려해 경제, 인문, 자기계발 등 도서 분야별 맞춤 AI 목소리도 사용할 수 있다. AI 문서 분석 기
[더테크=조명의 기자] 셀바스AI가 디지털교과서 등 에듀테크 환경에서 필요로 하는 AI 교육 제품 및 서비스를 확대한다. 셀바스AI는 디지털 한글 교육에 최적화된 AI 글씨교정 제품 ‘셀비 펜 가이드’ 출시를 출시한다고 18일 밝혔다. 기존 ‘셀비 펜’은 97% 이상의 정확도로 손 글씨를 텍스트로 변환해준다. 다양한 디지털 필기 인식이 가능해, 교육업체들이 수학 등 문제 자동 채점 및 평가에 활용하고 있다. 이번에 출시된 셀비 펜 가이드는 디지털 펜으로 작성된 손 글씨의 필순과 글씨체를 인식해 평가하고, 교정해주는 제품이다. 디지털 교육 환경에서 한글 교육이 가능하도록 개발됐다. 셀바스AI에 따르면 셀비 펜 가이드의 필순 가이드 기능은 한국교육과정평가원의 한글 획순 가이드를 기준으로 사용자의 필순과 획 오답을 자동 검사한다. 오답이 있는 경우, 애니메이션으로 사용자가 직접 쓴 필순과 필순 가이드를 동시에 제시한다. 글씨체 가이드 기능은 사용자가 작성한 글씨체를 한글 음절 단위로 인식해 기준 글씨체와 위치, 크기, 모양을 비교‧평가한다. 셀비 펜 가이드는 영유아, 초등학생 및 한글을 학습하는 외국인을 대상으로 한 받아쓰기, 따라쓰기, 바른 글씨 연습 등 디지털
[더테크=조명의 기자] 셀바스AI는 법무법인 등 법률 분야로 음성기록 제품 ‘셀비 노트(Selvy Note)’ 공급을 확대했다고 11일 밝혔다. 셀비 노트는 일대일 또는 다자 간 대화 내용을 자동으로 텍스트 변환해 기록‧저장하고, 이를 데이터베이스화하는 AI 음성기록 솔루션이다. 조사‧상담 시 화자를 구분해 즉시 문서를 작성하는 실시간 방식과 음성 녹음파일이 자동 텍스트화 되는 비실시간 방식 모두 지원한다. 법무법인에서 셀비 노트를 선호하는 이유는 업무 효율성 향상, 데이터 보안, 상용화 경험 등의 장점 때문이다. 음성인식 기술을 활용해 음성파일이 빠르게 텍스트로 변환되어 변호사는 주요 키워드 중심으로 빠르게 검색‧확인하고 증거 파일로 활용할 수 있다. 또한 인터넷 연결 없이 사용 가능해 민감한 정보 및 개인정보 보안이 중요한 법률 법률 분야에서의 활용도가 높다. 현재 법무부, 보건복지부, 경찰청, 특허청, 대형 법무법인 등 다양한 법률 분야에서 활용 되고 있다. 윤재선 셀바스AI 음성인식 사업대표는 “여러 상용화 경험을 통해 법률 분야에 최적화된 제품으로 셀비 노트를 고도화해 나가고 있어 국내 법무법인은 물론 중대재해처벌법 시행 관련 안전관리 기록 작성이
[더테크=조명의 기자] 셀바스AI가 시‧도 경찰청, 전국 1‧2급지 경찰서 및 해바라기센터 등 총 239개소에서 운영 중인 AI 음성인식 활용 조서 작성 시스템을 고도화한다고 4일 밝혔다. AI 음성기록 제품 ‘셀비 노트’를 기반으로 한 AI 음성인식 피해조사 시스템은 피해자 진술 외 물적 증거가 없는 성폭력 사건에서 구체적이고 정확한 조사가 이뤄질 수 있도록 모든 대화내용의 기록, 저장은 물론 조서 형태의 문서화까지 지원한다. 셀바스AI는 이번 고도화를 통해 조사관의 수사 보고서 작성 효율화 증대는 물론 완성도 높은 조사와 양질의 수사가 될 수 있도록 지원할 예정이다. △실 환경 조서 데이터와 강원도, 제주도 등 사투리 데이터 학습을 통해 음성 인식률 상향 평준화를 진행하고 △조사 보고서 작성 기능 구현을 위한 사건개요 및 진술자료 등 데이터 축척/관리 및 정제도 진행한다. 신규 기능으로는 △AI챗봇과 같이 수사관의 질문에 대해 문장의미를 파악하여 최적화된 답변을 추출할 수 있는 대화형식 검색 기능이 추가된다. 윤재선 셀바스AI 음성인식 사업대표는 “경찰청 사업화 경험을 토대로 조사‧상담 환경에 최적화된 AI 음성기록 제품 경쟁력을 강화하고 있으며, 이런
[더테크=문용필 기자] 인공지능(AI) 기업 솔트룩스가 초거대 AI 기반 대화형 모델을 지원하기 위한 데이터 구축사업에 나서게 됐다. 솔트룩스는 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 주관하는 ‘2023년 인공지능 학습용 데이터 구축 지원사업’의 일환인 ‘음성인식에 의한 영상 요약 데이터’ 구축 사업을 수주했다고 25일 밝혔다. 이번 사업은 음성인식 기술을 활용해 방송 콘텐츠를 요약하고 검색 등에 활용할 수 있는 학습용 데이터를 구축하는 것이 골자다. 솔트룩스는 이번 사업을 위해 팀벨과 비투엔, 배재대와 컨소시엄을 구성했으며 오는 12월까지 사업을 수행한다. 솔트룩스는 AI학습용 데이터 구축 사업을 매년 주관하고 수행하면서 현재까지 약 15만 시간 이상의 음성 수집과 30억 어절 이상의 텍스트 전사를 진행했다는 설명. 특히 ‘한국어 방언 AI 데이터 구축 사업’은 디지털 뉴딜 우수 사례로 선정되기도 했다. 이번 사업을 통해 솔트룩스 컨소시엄은 음성 발화가 70% 이상 포함된 3000시간 분량의 방송 콘텐츠에서 장소와 행동, 감정, 관계 등을 추출해 데이터를 구축하고 검색을 위한 질의어 20만건을 생성할 계획이다. 아울러 한국어 음성인식에 특화된
[더테크=조명의 기자] 셀바스AI는 디지털 기반 지능형 승강기 스마트관제 플랫폼에 인공지능 음성인식 기술을 접목했다고 23일 밝혔다. 승강기 환경에 최적화된 셀바스AI의 음성인식 기술은 한국승강기안전공단(KoELSA)이 개발한 디지털 기반 지능형 승강기 스마트관제 플랫폼에 적용됐다. 음성인식-영상인식 기술 간 연계로 엘리베이터 내 이상 작동, 폭행사고 등이 발생하면 이용자의 비정상적인 움직임과 함께 '사람 살려' 등 특정 키워드에 대한 음성인식을 통해 위험상황을 자동으로 감지한다. 위험 상황은 승강기 관제시스템을 통해 건물관리자나 유지관리업체, 통합관제센터 등에 실시간으로 상황 전파와 신속한 출동 및 구조활동이 이뤄진다. 디지털 기반 승강기 스마트 관제플랫폼은 엘리베이터 내 응급 및 이상 상황 발생 시 신속하고 정확한 대응이 가능해져 승강기 이용자 안전이 대폭 강화될 것으로 기대된다. 셀바스AI에 따르면 음성인식 기술은 승강기는 물론 절도, 폭력 등 안전관리는 물론 재난안전, 영상관제, 순찰로봇, AI CCTV, 지능형 콜백 시스템 등 다양한 분야의 스마트 관제 서비스에 접목이 가능하다. 특히 CCTV 관제 플랫폼의 경우 영상관제 시스템만으로는 정확한 응급
[더테크=전수연 기자] 음성 AI 기반 기술 기업 미디어젠은 19일 개최되는 헝가리 부다페스트 세계육상선수권 대회에 한국어 음성합성(TTS) 기술을 공급한다고 18일 밝혔다. 세계육상선수권대회는 중국의 인공지능(AI) 대표 기업 iFLYTEK이 다국어 AI 기술 제공사로 후원하며 한국어 음성 합성 엔진은 미디어젠에서 공급한다. 2023 세계육상선수권대회는 미디어젠 솔루션을 활용한 디지털 휴먼을 통해 장내 안내, 홍보, 서비스 등이 제공되며 일반 남녀, 아동 등 다양한 음성과 감정 상태에 따른 음성 출력이 이뤄진다. 미디어젠은 iFLYTEK 글로벌 서비스 플랫폼에 AI 솔루션을 탑재해 공동 판매를 준비 중이며 대회 이후 글로벌 진출을 목표로 하고 있다. 현재 미디어젠은 초거대 AI 사전 학습을 위한 데이터 구축 및 AI 엔진 알고리즘 원천 기술을 보유하고 있다. 이를 바탕으로 스마트카, 스마트 컨택센터, AI 에듀테크, AI 키오스크 등 여러 부문에서 사업화를 진행하고 있다. 아울러 미디어젠은 iFLYTEK과 올 3월 AI 기술 제휴 및 글로벌 AI 공동사업을 위한 업무협약을 체결했으며 국내 시장과 해외 진출을 위한 신사업 협력 관계를 유지할 계획이다.
[더테크=조명의 기자] 리턴제로가 인공지능이 내가 만든 영상 콘텐츠를 숏폼 영상으로 변환해주고 자막까지 달아주는 서비스를 선보인다. 리턴제로는 AI 기반 숏폼 편집 툴 ‘아이코(AICO)’를 출시했다고 7일 밝혔다. 리턴제로에 따르면 아이코는 가로 형태의 원본 영상을 세로형 콘텐츠에 최적화된 ‘숏폼’으로 빠르고 간편하게 변환해주는 서비스다. 영상을 업로드할 필요 없이 유튜브 링크만으로 이용 가능하며 챗GPT가 분석한 영상의 추천 구간을 쇼츠로 자동 생성해준다. 또한 자체 개발한 STT(Speech To Text) 기술이 탑재돼 숏폼으로 편집된 영상에 AI가 자막과 제목을 자동으로 생성해줘 크리에이터들의 제작 편의를 돕는다. 특히 음성이 많이 콘텐츠를 찍는 크리에어터들에게 유용하다. 리턴제로는 숏폼 영상 제작‧편집에 최적화된 아이코 서비스를 통해 창작자들이 자신의 영상을 제작하고 편집하는 데 들이는 공수를 줄이는 도움이 될 것이라고 설명했다. 리턴제로는 아이코 영문 버전 사이트도 함께 출시, 글로벌 시장 공략에도 나선다. 세계 숏폼 시장이 향후 10년 내 약 3조 원 규모까지 성장할 것으로 예상되는 만큼, 아이코가 생성AI 기술을 활용한 대표적인 영상 편집 서
[더테크=조명의 기자] 리턴제로가 신용보증기금이 지원하는 ‘프리아이콘(Pre-ICON)’ 프로그램 대상 기업으로 선정됐다고 25일 밝혔다. 신용보증기금의 프리아이콘 프로그램은 창업 이후 2년에서 10년 이내 도약 단계에 있는 혁신 스타트업의 스케일업을 목적으로 하는 사업이다. 경영진의 역량, 비즈니스모델의 혁신성, 경쟁력, 성장성 등을 심사해 보증을 지원한다. 지원 대상은 우수 투자유치기업, 퍼스트 펭귄기업, 혁신아이콘 예비심사 통과기업 등을 선별해 선정한다. 리턴제로는 신용보증기금에서 진행한 심사를 통과해 3년간 총 30억 원의 보증 지원을 받게 됐다. 양질의 음성데이터를 확보해 음성인식 기술을 지속적으로 개선할 수 있는 선순환 구조를 구축했을 뿐 아니라, B2C와 B2B 분야 모두에서 성장성과 확장성이 있는 면을 높게 평가 받았다. 2018년 설립된 리턴제로는 통화 음성을 텍스트로 변환시켜주는 서비스 ‘비토(VITO)’를 선보였다. 비토는 전화 내용을 실시간으로 녹음하고 통화 종료 후 수 초 내에 메신저 형태로 보여주며, 7월 기준 유저가 103만 명에 이른다. 리턴제로 이참솔 대표는 “이번 지원을 통해 리턴제로는 매출 성과 달성을 위한 비즈니스 전략을