본문 바로가기

인사이트

에이아이트릭스가 던진 의료 AI의 다음 질문들: ICLR·EACL 논문 7편 등재

안녕하세요, 에이아이트릭스입니다.

에이아이트릭스는 의료 현장에서 AI가 실질적인 도움이 될 수 있도록, 환자 상태 예측부터 데이터 해석, 그리고 실제 임상 환경에서 더 신뢰할 수 있는 모델을 만들기 위한 연구를 이어가고 있는데요.

 

올해 에이아이트릭스 리서치팀이 뜻깊은 성과를 만들어냈습니다.

바로 국제 학회인 ICLR과 EACL, 두 학회에서 총 7편의 논문이 채택된 것이죠!🎉

 

 

지난 4월에는 브라질 리우데자네이루에서 열린 ICLR 2026 현장에 직접 참석해 이번 연구들을 세계 연구자들 앞에서 선보이기도 했습니다.

이번 학회에는 시계열 데이터, 멀티모달 인텔리전스, 신뢰할 수 있는 AI 등 에이아이트릭스가 지금 고민하고 있는 주제들과 맞닿은 워크샵들이 많이 열렸는데요. 전 세계 연구자들이 같은 문제를 어떻게 바라보고 있는지 직접 확인하고, 에이아이트릭스의 연구 성과를 글로벌 무대에서 나누는 자리였답니다.😊

 

ICLR은 AI 분야에서 세계적으로 권위를 인정받는 학회 중 하나로, 매년 수천 편의 논문이 제출될 만큼 경쟁이 치열한 곳입니다. EACL 역시 자연어처리 분야를 대표하는 국제 학회로 잘 알려져 있어요. 이 두 학회에 동시에 연구 성과를 올렸다는 것은, 에이아이트릭스의 연구가 글로벌 무대에서도 주목받고 있다는 뜻이기도 합니다.👍

 

의료 AI는 우리의 건강과 생명에 맞닿아 있는 기술입니다. 왜 그런 판단이 나왔는지, 실제 현장에서 믿고 쓸 수 있는지까지 함께 봐야 하죠. 이번에 채택된 7편의 논문은 바로 이러한 고민에서 출발한 연구들입니다.

더 정확한 AI, 더 신뢰할 수 있는 AI, 그리고 실제 의료 현장에서 더 잘 활용될 수 있는 AI를 만들기 위한 에이아이트릭스의 연구 방향을 잘 보여주고 있어요.

 

이제부터 각 논문이 어떤 질문을 던지고, 어떤 해답을 제시하는지 차례로 살펴보겠습니다. 👀


📌 Delta-XAI: A Unified Framework for Explaining Prediction Changes in Online Time Series Monitoring 

 

Delta-XAI는 의료 AI의 '설명 가능성'을 한 단계 확장한 연구입니다. 

 

의료진이 AI의 예측 결과를 실제로 활용하려면, 단순히 수치만 보는 것이 아니라 왜 그런 결과가 나왔는지까지 이해할 수 있어야 합니다. 그런데 환자 데이터는 시간에 따라 계속 변해요. 기존의 AI 설명 기법들은 특정 시점의 예측만 따로 설명했기 때문에, 시간이 흐르면서 예측이 어떻게 변했는지, 그 변화의 이유가 무엇인지까지 설명하기에는 한계가 있었죠.

 

Delta-XAI는 이러한 한계를 넘어, 시간의 흐름 속에서 AI의 판단이 어떻게 형성되고 변화하는지를 설명할 수 있는 새로운 프레임워크를 제안했습니다. 기존에 제안된 특정 시점의 예측만을 설명할 수 있는 다양한 AI 설명 기법들을 예측의 변화를 설명할 수 있도록 이론적, 방법론적 토대를 마련하고, 설명의 신뢰성과 일관성을 평가할 수 있는 체계적인 기준도 함께 제시했어요. 즉, 새로운 설명 방법 하나를 제안하는 데서 끝나지 않고, 어떤 설명이 실제로 더 믿을 만한지 판단할 수 있는 틀까지 함께 만든 셈입니다.

 

또한 이 연구에서는 ‘SWING(Shifted Window Integrated Gradients)’이라는 새로운 설명 방법이 제안됐습니다. 과거 데이터의 흐름을 함께 고려해 AI의 판단 근거를 분석함으로써, 시간에 따라 변화하는 환자 상태와 AI 예측의 관계를 보다 자연스럽게 설명할 수 있도록 설계된 방법이죠.

이 연구가 의료 AI에서 중요한 이유도 여기에 있습니다. 실제 의료 현장에서는 환자의 위험 점수가 갑자기 올라가거나 내려갔을 때, 의료진이 그 이유를 빠르게 이해할 수 있어야 하기 때문인데요. Delta-XAI는 특정 검사 수치나 환자 상태의 변화가 예측 결과에 어떤 영향을 주었는지 비교해 보여줄 수 있어, AI가 단순히 결과를 제시하는 도구를 넘어 판단의 근거까지 함께 설명하는 방향으로 나아갈 수 있음을 보여줍니다.

 

결과적으로 이번 연구는 의료 현장에서 AI에 대한 신뢰를 높이고 실제 활용성을 높이는 방향으로 이어질 수 있다는 점에서 의미가 있습니다.

 

📌 Soft Equivariance Regularization for Invariant Self-Supervised Learning 

 

이 연구는 AI가 데이터의 변화를 어떻게 다루어야 하는지에 대한 질문에서 출발합니다.

 

기존 자기지도학습은 서로 다른 두 데이터를 비슷하게 보도록 학습하는 과정에서, 작은 구조 변화까지 함께 없애버릴 수 있다는 한계가 있었습니다. 특히 의료정보처럼 미세한 차이가 중요한 데이터에서는 이런 방식이 필요한 정보까지 약하게 만들 수 있거든요.

 

이를 해결하기 위해 제안한 방법이 ‘SER(Soft Equivariance Regularization)’입니다. 최종 표현은 기존처럼 안정적으로 유지하되, 그 이전의 중간 표현에서만 변화 정보를 부드럽게 반영하도록 설계한 것입니다. 결과를 내는 마지막 표현은 흔들리지 않게 두면서도, 그 전에 형성되는 중간 표현에서는 데이터의 형태 변화가 자연스럽게 반영되도록 한 것이죠. 별도의 변환 예측 모듈이나 추가 라벨 없이 구현했다는 점도 특징입니다.

 

이 연구는 단순히 표현을 더 안정적으로 만드는 데서 그치지 않고, 변화 정보를 어떤 방식으로 남길 것인지에 대한 하나의 방향을 제시해요. 특히 불변성과 변화 반영이라는 두 요소를 같은 지점에서 충돌시키지 않고, 서로 다른 레이어에서 역할을 나누어 다룬다는 점에서 의미가 있습니다.

 

본 연구는 이아이트릭스가 EHR을 넘어 의료 영상 및 멀티모달 AI로 확장하는 데 필수적인 '강건한 표현 학습'의 토대를 마련합니다. 특히 불변성과 등변성을 서로 다른 레이어에서 학습시키는 방식은 EHR을 포함한 모든 도메인에 적용 가능한 범용성을 지니죠. 데이터의 미세한 특징을 보존하면서도 안정적인 성능을 유지함으로써 의료 AI의 무한한 확장 가능성을 제시한 연구라고 할 수 있어요.

 

📌 SCAD: Super Class Aware Debiasing for Long-Tailed Semi-Supervised Learning 

 

현실의 데이터는 늘 고르게 쌓이지 않습니다. 어떤 사례는 자주 등장하지만, 어떤 사례는 드물게 나타나죠. 문제는 이런 환경에서 AI가 흔한 사례에 더 익숙해지면서, 드문 사례를 놓치거나 비슷한 다른 사례로 잘못 분류하기 쉬워진다는 점입니다.

 

SCAD는 바로 이 문제를 다룬 연구입니다. 특히 비슷한 클래스들이 묶인 그룹 안에서 발생하는 불균형에 주목했는데요. 서로 의미적으로 가까운 클래스들은 원래도 혼동이 쉬운데, 그 안에서 어떤 클래스는 많고 어떤 클래스는 적으면 드문 클래스가 더 쉽게 묻힐 수 있기 때문이죠. 연구진은 이런 문제를 'intra-super-class imbalance'라는 새로운 개념으로 정의하고, 이것이 성능 저하의 핵심 원인 가운데 하나라고 봤습니다.

 

이를 해결하기 위해 제안한 방법이 ‘SCAD(Super-Class-Aware Debiasing)’입니다. SCAD는 클래스 간 의미적 유사성을 바탕으로 혼동이 큰 그룹을 찾아내고, 그 안에서 불균형을 더 집중적으로 보정하도록 설계됐어요. 다시 말해, 모든 클래스를 똑같이 보정하는 대신 실제로 더 많이 헷갈리는 비슷한 클래스들 사이에서 드문 케이스를 더 잘 구별할 수 있도록 돕는 방식인거죠.

 

이 연구는 의료 AI에서도 의미가 있습니다. 실제 의료 데이터에서는 비슷한 질환군 안에서 드문 사례를 정확히 구별하는 일이 특히 어렵고도 중요하기 때문이죠. SCAD는 이런 상황에서 희귀하고 혼동되기 쉬운 케이스를 더 잘 감별할 수 있는 방향을 제시한다는 점에서, 의료 데이터의 현실적인 문제를 다룬 연구라고 볼 수 있어요.

 

📌 Status-Aware Self-Supervised Forecasting for Irregular Clinical Time Series 

 

환자의 전자건강기록(EHR) 데이터는 정해진 시간 간격 없이 불규칙하게 기록되는 경우가 많습니다.

혈압은 자주 측정되지만 특정 검사 수치는 며칠에 한 번 나오는 식이죠. 이런 데이터를 학습에 활용하려면 보통 일정한 시간 격자로 변환하는 전처리 과정을 거치는데, 이 과정에서 데이터 본래의 구조가 손상될 수 있습니다. 때문에 연구진은 이런 전처리 방식 대신, 데이터가 들어오는 원래의 형태를 최대한 유지한 채 학습하는 접근이 더 적절하다고 봤습니다.

 

또 다른 어려움은 정답 라벨입니다. EHR 데이터에는 여러 가지 노이즈가 섞여 있기 때문에, 주어진 라벨만 그대로 활용하는 지도학습만으로는 한계가 있을 수 있어요. 그래서 연구진은 라벨 없이도 대규모 데이터로 먼저 학습한 뒤, 이를 실제 예측 과제에 활용하는 자기지도학습 방식에 주목했습니다.

 

핵심 아이디어는 ‘환자 상태’ 라는 추상적인 개념을 도입한 것입니다. 미래의 구체적인 수치를 직접 예측하는 대신, 미래의 환자 상태를 예측하는 방식으로 사전학습을 설계한 것이죠. 이 때 미래 상태의 개수가 상황마다 달라질 수 있다는 점을 반영하기 위해, 컴퓨터 비전 분야의 객체 탐지 모델인 DETR에서 착안한 구조를 차용했습니다. 덕분에 가변적인 수의 미래 상태를 유연하게 예측할 수 있게 됐습니다.

 

이 연구는 의료 AI가 불규칙한 임상 데이터를 더 자연스럽게 다루는 방향을 보여준다는 점에서 의미가 있는데요. 실제 의료 현장에서는 데이터가 항상 정리된 형태로 들어오지 않기 때문에, 이런 특성을 그대로 반영한 학습 방식이 중요합니다. 환자 상태의 변화를 더 잘 이해하고, 이를 바탕으로 미래 위험을 예측하는 데 필요한 기반을 다졌다는 점에서, EHR 기반 의료 AI의 가능성을 넓혀주는 연구라고 할 수 있는거죠.

 

📌 Structure-Aware Set Transformers: Temporal and Variable-type Attention Biases for Asynchronous Clinical Time Series [이주형 / 이관형]

 

앞선 연구와 마찬가지로, 이 연구도 불규칙한 EHR 데이터를 어떻게 더 잘 다룰 수 있을지에 대한 고민에서 출발합니다.

 

EHR 데이터를 AI 모델에 입력하는 방식은 크게 격자(grid) 방식과 집합(set) 방식으로 나눌 수 있습니다. 격자 방식은 시간을 일정한 간격으로 나눠 데이터를 정리하는 방식이고, 집합 방식은 각 측정값을 하나의 이벤트처럼 다루는 방식입니다. 격자 방식은 시간 흐름과 변수 간 관계를 표현하기 쉽지만, 빈 값을 채우는 과정이 필요하죠. 반면 집합 방식은 이런 전처리 없이 데이터를 다룰 수 있지만, 시간적 맥락이나 변수 간 관계가 충분히 반영되지 않을 수 있어요.

 

이 연구에서 제안한 STAR(STructure-AwaRe) Set Transformer는 집합 방식의 유연함을 유지하면서도, EHR 데이터 안의 구조적 정보를 더 잘 반영하도록 설계됐습니다. 핵심은 어텐션에 두 가지 편향을 추가한 것입니다. 시간적으로 가까운 이벤트끼리 더 잘 연결되도록 하는 ‘시간 편향(temporal bias)’과, 같은 변수 유형 또는 관련 있는 변수들 사이의 관계를 반영하는 ‘변수 유형 편향(variable-type bias)’이죠.

 

이를 통해 불필요한 격자화와 대치 없이도 EHR 데이터의 특성을 더 자연스럽게 반영할 수 있었어요. 기존 격자 방식과 기존 집합 방식보다 더 높은 성능도 확인됐습니다.

 

📌 Delta-XAI: A Unified Framework for Explaining Prediction Changes in Online Time Series Monitoring [김창훈 / 문예찬]

 

이 논문은 LLM을 논문 심사에 어디까지 활용할 수 있는지, 그리고 어떻게 써야 더 책임 있는 방식이 되는지를 고민한 연구입니다.

 

최근 AI 분야에서는 논문 수가 빠르게 늘어나면서 심사 과정의 부담도 점점 커지고 있는데요. 하지만 논문 심사에서 정말 중요한 일은 단순히 글을 읽는 것에 그치지 않아요. 실험 결과가 다시 재현되는지, 인용이 정확한지, 윤리적으로 문제가 될 부분은 없는지까지 꼼꼼히 살펴봐야 하죠.

 

이 논문은 LLM이 바로 이런 검증 과정을 도울 수 있다고 봅니다. 다만 사람의 판단을 대신하는 방식은 경계해요. LLM이 리뷰를 대신 작성하거나 사람의 의견을 대체하는 것이 아니라, 재현성 검증, 참고문헌 검토, 윤리 검토 보조처럼 사람이 놓치기 쉬운 부분을 보완하는 역할을 해야 한다는 것이 핵심이죠.

 

즉, 더 빠른 심사를 위한 AI가 아니라, 더 책임 있고 더 신뢰할 수 있는 판단을 돕는 AI의 역할을 제안한 연구라고 볼 수 있어요. 새로운 기술을 만드는 것만큼, 그 기술을 어떻게 책임 있게 활용할 것인지를 함께 고민하는 것도 중요하다는 에이아이트릭스의 연구 방향을 잘 보여주는 논문이기도 합니다.

 

📌 LLM Plug-ins Are Not a Free Lunch for Clinical Time-Series Prediction [최주환 / 이관형]

 

이 논문은 LLM을 의료 AI에 결합하는 일이 생각만큼 단순하지 않다는 점을 보여줍니다.

 

최신 LLM은 의료 지식을 폭넓게 담고 있고, 의료 관련 질문에도 높은 수준의 답변을 내놓습니다. 이런 LLM의 능력을 기존 임상 예측 모델에 더하면 당연히 더 좋아질 것처럼 보이지만, 실제 결과는 그렇게 단순하지 않아요.

 

그래서 LLM의 일부 레이어를 기존 EHR 시계열 예측 모델에 직접 연결하는 경량 plug-in 방식을 제안하고, 여러 조건에서 그 효과를 실험적으로 검증했습니다. 그 결과 어떤 과제나 모델에서는 도움이 되었지만, 다른 경우에는 효과가 제한적이거나 일관되지 않게 나타났어요. 이에 왜 일관된 효과가 나타나지 않는지를 추가 실험으로 분석했고, 그 결과 LLM이 가진 의료 지식이 존재한다는 사실과 그 지식이 구조화된 EHR 예측에 바로 도움이 된다는 사실은 별개라는 점을 확인했습니다. 중요한 것은 단순히 최신 기술을 붙이는 일이 아니라, 데이터의 특성과 문제의 구조에 맞게 얼마나 정교하게 결합하느냐라는 것이죠.

 

이 연구는 LLM이 의료 AI에 도움이 될 가능성을 보여주는 동시에, 언제 효과가 있고 언제 한계가 드러나는지까지 함께 밝혔다는 점에서 의미가 있어요. 긍정적인 결과만 강조하지 않고 한계와 조건을 함께 제시하는 것, 이것이 에이아이트릭스가 추구하는 연구의 방향이기도 합니다.


 

이번 성과는 에이아이트릭스의 연구가 어디를 향하고 있는지를 보여주는 결과이기도 합니다.🔍

 

더 잘 설명할 수 있는 AI, 더 안정적으로 작동하는 AI, 그리고 실제 의료 현장에서 더 믿고 사용할 수 있는 AI를 만들기 위한 고민이 이번 연구들 안에 담겨 있어요. 앞으로도 이러한 연구는 논문에 머무르지 않고, 실제 기술과 제품 안으로 차근차근 연결되며 에이아이트릭스의 의료 AI를 더욱 단단하게 만들어갈 예정입니다.

 

에이아이트릭스가 만들어가는 의료 AI의 이야기, 앞으로도 함께 지켜봐 주세요!🚀