다크웹 잡는 AI 언어모델 개발됐다

S2W-KAIST연구진, '다크버트' 개발…
다크웹 약 600만 페이지 이상의 정보 학습

 

[더테크=조명의 기자]  S2W(이하 에스투더블유)가 KAIST 연구진과 함께 다크웹 전용 AI 언어 모델 ‘다크버트(DarkBERT)’를 개발했다고 7일 밝혔다. 

 

에스투더블유와 KAIST 연구진은 “다크웹을 학습시킨 AI 모델은 전 세계적으로 처음이”이라며 “다크웹과 같은 신종 사이버 위협에 대한 효과인 대응력을 전 세계의 기관 및 기업에 보급할 수 있는 계기가 마련된 것”이라고 말했다.

 

다크웹은 마약, 정보 유출, 랜섬웨어, 해킹 등 최근 급증하는 사이버범죄들의 온상이 되고 있다. 일반적인 인터넷 브라우저로는 접속이 안되고 추적이 불가능한 익명화 기술이 적용되어 있어 수사기관은 물론 기업들이 실체를 파악하는 데 어려움이 있었다. 

 

다크버트는 다크웹상에서 각종 범죄 데이터를 효과적으로 추출할 수 있도록 훈련한 다크웹 전문 언어 모델이다. 지난 5월 4일 세계적인 자연어처리 학술대회 ACL에 연구성과가 채택, 논문이 공개되면서 트위터를 비롯해 유명 IT 전문지에 잇달아 소개되면서 전 세계적으로 주목을 받고 있다.  

 

실제 다크버트는 트위터에서 지금까지 27개국에서 100만 조회수를 기록하고 있으며, 구글의 CISO Phil Venables가 다크버트의 출현에 대해 언급하는 등 AI 분야와 사이버 보안분야 양쪽에서 모두 높은 관심을 받고 있다고 회사 측은 밝혔다. 

 

 

다크버트를 활용하면 △다크웹상의 범죄/위협 활동에 대한 정확한 분류 △랜섬웨어 및 정보유출 사이트에 대한 탐지 △사이버 안보나 범죄에 대한 중요한 위협활동 모니터링 및 탐지 △범죄자와 해커들이 사용하는 은어와 신조어에 대한 높은 이해력과 추론 등을 통해 다크웹의 문제점을 해결하는 데 활용될 수 있다. 

 

특히 다크버트는 다크웹 약 600만 페이지(2.2TB) 이상에 달하는 정보를 학습했으며, 사이버 위협 시나리오별 테스트를 통해 유출된 정보를 효과적으로 탐지하고 식별하는 훈련을 수행하였기 때문에 정확성과 신뢰성이 핵심인 보안 분야에서 사용이 가능하다. 

 

다크웹 콘텐츠 중 위협 수준이 높은 것을 선별할 수 있는 기능도 갖췄다. 수많은 다크웹 데이터 중 위협 수준이 극도로 높은 것을 실시간으로 선별하고 이를 사용자에게 제공할 수 있어 기존 AI 언어 모델에 비해 사이버 범죄에 더 유용하게 활용될 수 있다. 

 

에스투더블유 서상덕 대표는 “다크버트는 무수히 넓은 위협 공간에서 공격자의 행동을 꼼꼼히 살펴보며 수사와 분석을 돕는 인공지능이다. 이를 위해서는 사이버 범죄에 사용되는 언어를 잘 학습하고 이해하는 것이 기본이다”이라고 말했다.

 

이어서 “다크버트는 가장 어두운 곳의 정보를 다루지만 밝고 안전한 세계를 지키는 일에 지금까지 출시된 어떤 AI 언어 모델보다 의미 있는 기여를 하게 될 것”이라고 강조했다.

 



배너

배너