![왼쪽부터 서울대학교 컴퓨터공학부 송현오 교수, 김장현 연구원, 이덕재 연구원, 문승용 연구원, 김진욱 연구원. [사진=서울대공대] ](http://www.the-tech.co.kr/data/photos/20251043/art_1761097596624_d4afcc.jpg?iqs=0.7293139759856873)
[더테크 이지영 기자] 서울대학교 공과대학 컴퓨터공학부 송현오 교수 연구팀이 장문 대화와 문서 요약 등 긴 맥락 기반 작업에서 거대언어모델(LLM) 챗봇의 대화 메모리를 지능적으로 압축하는 AI 기술 ‘KVzip’을 개발했다고 22일 밝혔다.
챗봇의 ‘대화 메모리’는 사용자와의 대화 중 문장, 질문, 응답 등 맥락 정보를 임시로 저장해 현재 혹은 이후의 응답 생성에 활용하는 데이터를 말한다. KVzip은 이 과정에서 복원에 필요하지 않은 정보를 제거하고 핵심 정보만 남겨 대화 메모리를 효율적으로 압축한다. 연구진은 이 기술이 챗봇 정확도를 유지하면서 메모리 사용량을 줄이고, 답변 생성 속도를 단축할 수 있는 길을 열었다고 평가했다.
최근 LLM 챗봇은 수백에서 수천 페이지에 달하는 방대한 문맥을 바탕으로 대화, 코딩, 질의응답 등 다양한 작업을 수행하지만, 대화가 길어질수록 메모리 비용 증가와 응답 지연 문제가 발생한다. 이를 해결하기 위해 연구진은 KVzip을 개발, 문맥 복원에 필요한 정보만 남기고 나머지는 제거함으로써 한 번의 압축으로 다양한 후속 질문에 대응할 수 있도록 설계했다.
실험 결과, 질의응답, 검색, 추론, 코드 이해 등 여러 과제에서 정확도 저하 없이 메모리를 3~4배 절감하고, 응답 시간은 약 2배 단축했다. Llama 3.1, Qwen 2.5, Gemma 3 등 주요 오픈 소스 LLM 모델에서도 최대 약 17만 토큰(token) 규모의 초장문 맥락에서 효용을 입증했다. 서로 다른 유형의 후속 질문에서도 응답 품질을 안정적으로 유지하며, 엔비디아(NVIDIA) KV 캐시 압축 라이브러리인 KVPress에 통합돼 손쉽게 활용할 수 있다.
KVzip은 향후 기업 규모의 대규모 검색 증강 시스템(RAG)과 개인화 맥락 기반 챗봇 등 다양한 LLM 서비스 운영에 활용될 전망이다. 같은 정보를 3~4배 가볍게 저장하고, 답변 생성 지연 시간을 2배 단축할 수 있어 서버 효율성을 높이고 운영 비용을 절감할 수 있다. 또한 질문 유형이 바뀌어도 동일한 압축 메모리를 재사용할 수 있어 매번 재압축할 필요가 없고, 모바일 및 에지 환경에서도 긴 맥락 기반 개인화 기능 제공이 가능하다.
연구를 지도한 송현오 교수는 “KVzip은 긴 맥락을 필요로 하는 LLM 챗봇에서도 꼭 필요한 정보만 남겨 재사용 가능한 압축 메모리를 구현했다는 점에서 의미가 크다”며 “향후 실제 서비스와 온디바이스 환경 적용, 추가 최적화를 통해 긴 문맥에서도 일관된 품질과 속도를 보장하는 방향으로 연구를 이어가겠다”고 밝혔다.
이번 연구의 제1저자인 김장현 박사는 애플 AI/ML 파운데이션 모델 팀에 합류할 예정이다. 송 교수 연구실은 이번 NeurIPS 2025에서 2편의 포스터 발표 논문을 채택시키고, 국제학술지 Transactions on Machine Learning Research(TMLR)에 논문 1편을 게재하는 성과도 올렸다.