[더테크 이지영 기자] AI 데이터·신뢰성 평가 기업 셀렉트스타가 자체 개발한 자동화 레드티밍 기술 ‘스타티밍(STAR-Teaming)’이 자연어처리 분야 최고 권위 학회인 ‘ACL 2026’에 채택됐다고 밝혔다. 생성형 AI 안전성 검증 기술 경쟁이 글로벌 시장에서 본격화되는 가운데, 대규모 언어모델(LLM)의 취약점을 보다 정밀하게 탐지할 수 있는 기술력을 입증했다는 평가다.
이번 논문은 ‘스타티밍: 전략-응답 멀티플렉스 네트워크 기반 자동화 LLM 레드티밍’으로, 생성형 AI 모델의 안전성을 자동으로 검증하는 기술을 다룬다. 레드티밍은 AI 모델에 의도적으로 유해한 질문이나 공격을 시도해 취약점을 찾는 방식으로, 최근 AI 서비스 상용화 과정에서 핵심 안전성 검증 절차로 자리 잡고 있다.
기존 자동화 레드티밍 기술은 과거 성공 사례를 반복 적용하는 구조가 많아 공격 전략 다양성이 떨어지고 비용 부담이 크다는 한계가 있었다. 셀렉트스타는 이를 개선하기 위해 ‘전략-응답 멀티플렉스 네트워크’ 기술을 개발했다. 이 기술은 통계물리학 기반 수학 모델링을 활용해 공격 전략과 AI 응답 간 관계를 학습하고, 상황별 최적 공격 전략을 확률적으로 선택하는 방식이다. 단순 반복 공격이 아니라 다양한 시도와 실패 데이터를 분석해 가장 효과적인 전략을 스스로 찾아낸다는 점이 핵심이다.
특히 특정 공격 방식에 편중되지 않고 다양한 전략을 우선 적용할 수 있도록 설계돼 실제 취약점 탐지 효율을 높였다. 셀렉트스타는 클로드, 젬마, 챗GPT, 라마, 큐원 등 17개 LLM을 대상으로 진행한 성능 검증에서 스타티밍이 평균 공격 성공률(ASR) 74.5%를 기록했다고 설명했다. 이는 기존 대표 기술인 오토단-터보(AutoDAN-Turbo)의 61.0% 대비 13.5%포인트 높은 수치다.
해당 기술은 실제 산업 현장에도 적용되고 있다. 스타티밍은 셀렉트스타의 AI 신뢰성 검증 솔루션 ‘다투모 플랫폼(Datumo Platform)’에 탑재돼 자동화 레드티밍 과정에 활용되고 있으며, 전자·가전 제조와 SI·IT 서비스 분야, 정부 주도의 독자 AI 파운데이션 모델 프로젝트 등에도 적용되고 있다.
정민재 셀렉트스타 AI 세이프티 엔지니어는 “AI 취약점을 보다 체계적으로 발견할 수 있는 구조를 구현하는 데 초점을 맞췄다”며 “LLM이 실제 산업 환경에서 안전하게 활용될 수 있도록 다투모 플랫폼 기술을 지속 고도화할 계획”이라고 말했다.
한편 셀렉트스타는 데이터 설계·구축부터 AI 신뢰성 평가, 레드티밍까지 전 주기 서비스를 제공하고 있으며, 국내외 기업 대상 AI 품질 검증 사업을 확대하고 있다.















