[더테크 이지영 기자] KAIST 연구진이 거대언어모델(LLM)의 ‘시간 오류’를 자동으로 진단하는 기술을 개발하며 의료·법률 등 고신뢰 분야에서의 AI 활용 가능성을 높였다.
KAIST는 전기및전자공학부 황의종 교수 연구팀이 마이크로소프트연구소와 공동으로 LLM의 시간 추론 능력을 자동 평가·진단하는 시스템을 개발했다고 14일 밝혔다.
LLM은 최신 정보를 반영하지 못하거나, 겉보기에는 정답처럼 보이지만 시간적 근거가 틀린 ‘시간 환각(Temporal Hallucination)’ 문제가 지속적으로 지적돼 왔다. 특히 의료·법률 분야처럼 시점 정확성이 중요한 영역에서는 이러한 오류가 신뢰성 저하로 직결된다.
연구팀은 이를 해결하기 위해 ‘시간 데이터베이스(Temporal Database)’ 설계 이론을 AI 평가 체계에 적용했다. 데이터의 시간 흐름과 관계를 기반으로 사람이 직접 문제를 만들지 않아도 13가지 유형의 시간 기반 질문을 자동 생성하는 구조를 구현한 것이 핵심이다.
이 기술은 문제 생성부터 정답 도출, 검증까지 전 과정을 데이터베이스 기반으로 자동화한다. 현실 정보가 변경되면 데이터만 갱신해 평가 기준과 정답이 자동 반영되며, 기존처럼 수작업으로 문제를 수정할 필요가 없어 유지 비용을 크게 줄일 수 있다.
실제 성능에서도 개선 효과가 확인됐다. 연구팀은 새로운 평가 지표를 통해 답변 과정에서 제시된 날짜와 기간의 논리적 타당성까지 검증하도록 설계했으며, 그 결과 시간 환각 검출 정확도를 기존 대비 평균 21.7% 향상시켰다. 또한 평가 데이터 구축에 필요한 입력량은 평균 51% 절감됐다.
이번 기술은 단순 정답 여부 중심 평가에서 벗어나 ‘시간 맥락’까지 검증하는 구조로, AI의 실제 활용 환경을 반영한 평가 방식이라는 점에서 의미가 크다. 특히 방대한 전문 데이터를 평가 자원으로 전환할 수 있어 의료·법률 등 고정밀 의사결정이 필요한 분야에 적용 가능성이 높다는 분석이다.
해당 연구는 김소연 박사과정이 제1저자로 참여했으며, 진동 왕, 싱 시에 연구진이 공동 저자로 참여했다. 연구 결과는 4월 개최되는 AI 분야 국제학회 ICLR 2026에서 발표될 예정이다.
황의종 교수는 “시간 데이터베이스 이론을 활용해 AI 신뢰성 문제를 해결한 사례”라며 “전문 데이터를 기반으로 한 평가 자동화가 향후 신뢰 가능한 AI 확산의 기반이 될 것”이라고 밝혔다.















