셀렉트스타, EU 개인정보 벤치마크 데이터셋 구축…국내 첫 GDPR·AI Act 기반 표준 마련

[더테크 이지영 기자] AI 데이터 전문 스타트업 셀렉트스타(대표 김세엽)가 유럽연합 개인정보 벤치마크 데이터셋 구축에 착수했다고 23일 밝혔다. 이번 사업은 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 주관하는 ‘2025년도 초거대 AI 확산 생태계 조성사업’의 일환으로 진행된다.

셀렉트스타는 국내 최초로 EU의 일반개인정보보호법(GDPR)과 인공지능법(AI Act)을 기반으로 한 오픈소스 데이터셋을 마련한다. 이를 통해 초거대 언어모델(LLM)의 개인정보보호 준수 여부를 평가할 수 있는 표준 검증 체계를 구축하는 것이 목표다. EU 규제가 글로벌 표준으로 확산되는 ‘브뤼셀 효과’에 대응하기 위한 전략적 프로젝트라는 점에서 의미가 크다.

이번 과제에서는 EU 법령과 공공 보고서를 기반으로 방대한 데이터를 수집·정제하고, 개인정보 보호와 관련된 핵심 항목을 구체적으로 분류해 평가 기준을 세운다. 또한 실제 서비스 환경에 활용할 수 있도록 질의응답 데이터와 다국어 평가 자료를 제작해 AI가 개인정보 규정을 정확히 이해하고 준수하는지를 검증할 수 있는 체계를 갖출 예정이다.

프로젝트는 셀렉트스타가 주관기관으로 기획과 총괄, 데이터 구축·품질 검증을 담당한다. 글로벌 AI 언어 데이터 기업 플리토는 다국어 데이터 정제·검수와 번역 품질 관리, 용어사전 구축을 맡으며, 리걸 AI 전문기업 BHSN은 규제 해석과 법적 리스크 검토를 통해 데이터셋이 실제 규제 환경에 부합하도록 지원한다.

이번 과제는 국내 최초로 EU 규제 준수 여부를 검증할 수 있는 LLM 평가용 벤치마크 데이터셋을 구축한다는 점에서 주목된다. 이를 통해 국내 AI 기업들이 유럽 시장 진출 시 필요한 검증 도구를 확보할 수 있으며, 구축된 데이터셋은 오픈소스로 공개돼 산업 전반의 활용도를 높일 전망이다.

김세엽 셀렉트스타 대표는 “이번 프로젝트는 국내 기업들이 글로벌 시장 진출에 도움을 줄 수 있는 발판이 될 것”이라며 “자체 개발한 AI 신뢰성 검증 기술력을 기반으로 LLM의 EU 규제 대응 수준을 정량적으로 평가할 수 있는 체계를 마련하겠다”고 밝혔다.

한편, 셀렉트스타는 AI 신뢰성 검증 솔루션 ‘다투모 이밸(Datumo Eval)’을 금융, 제조, 바이오 등 다양한 산업군에 공급하며 국내 AI 신뢰성 검증 시장을 선도하고 있다. 지난 15일 열린 ‘제47차 글로벌 프라이버시 총회(GPA 2025)’ 오픈소스 데이에서는 구글, 마이크로소프트, 메타, 오픈AI 등 글로벌 빅테크와 함께 발표 세션에 참여해 국제적 주목을 받았다.

Search