응급실(ED)은 환자의 상태가 시시각각 변하고, 단 몇 분의 판단 지연이 생명을 위협할 수 있는 공간입니다. 의료진은 끊임없이 쏟아지는 활력징후 변화, 혈액 검사 결과, 엑스레이 영상, 메모 등 다양한 데이터를 동시에 고려해야 하며, 때로는 정보가 충분히 모이지 않은 상황에서도 중대한 결정을 내려야 합니다.
에이아이트릭스는 이러한 부담을 줄이기 위해, 기관삽관(Intubation), 승압제 투여(Vasopressor), 심폐소생술(CPR), 중환자실 전실(ICU admission)과 같은 응급실에서 치명적이고 중요한 네 가지 중증 이벤트를 최대 12시간 이전에 예측하는 AI 모델을 개발했습니다.
이 모델은 최근 <Scientific Reports (Nature Portfolio)>에 게재되며 기술적 완성도를 인정받았습니다. (Choi, Arom, et al. "A novel deep learning algorithm for real-time prediction of clinical deterioration in the emergency department for a multimodal clinical decision support system." Scientific Reports 14.1 (2024): 30116.)
아래에서는 본 모델이 어떻게 ER 환경에 최적화되었는지, 어떤 기술을 활용하는지 설명드립니다.

ER 환경에 최적화된 Multi-Modal Transformer
응급실에서 발생하는 데이터는 형태도 다양하고, 등장 시점도 제각각입니다. 대표적으로 다음과 같은 모달리티 정보들이 불규칙(irregularly)하게, 그리고 비동기적으로(asynchronously) 수집됩니다.
- X-ray images
- Medical Notes (CC, PI, etc.) / EKG report
- Vital signs, GCS, Laboratory results
이러한 데이터들은 모달리티 간 특성 차이가 매우 크고, 데이터의 모양(shape)이 일치하지 않기 때문에 기존의 정형화된 테이블 형태로는 ER 환경의 의료 다면데이터 환경을 충분히 반영하기 어렵습니다. 에이아이트릭스의 ER 모델은 이 문제를 해결하기 위해 'Multi-modal Transformer' 아키텍처를 기반으로 설계되었습니다.
💡 왜 Multi Modal Transformer인가?
Multi-Modal Transformer는 X-ray, vital, text처럼 서로 다른 정보원을 동시에 해석하는 데 강점이 있어, 의료진이 응급실에서 실제로 다양한 단서를 종합해 판단하는 방식과 유사합니다.
에이아이트릭스가 MLHC 2023에 발표한 연구인 "Learning missing modal electronic health records with unified multi-modal data embedding and modality-aware attention" (Lee et al., 2023)에서도 이 멀티모달 구조의 장점이 확인되었으며, 모달리티가 추가될수록 예측 성능이 안정적으로 향상되는 패턴이 나타났습니다.
특히, 시계열+텍스트+X-ray를 모두 활용한 Trimodal 모델이 승압제 투여(Vasopressor), 중환자실 전실(ICU admission) 및 기관삽관(Intubation) 예측에서 최고 성능을 보이며 Multi-Modal Transformer 접근의 효과를 명확히 입증했습니다. 이는 결국, 응급실에서 의료진이 더 많은 근거와 다양한 단서를 확보할수록 더 정확한 판단을 내릴 수 있는 것과 같은 원리입니다.
Unified Multi-Modal Set Embedding (UMSE) – 시간/값/타입을 모두 반영하는 임베딩
단순히 멀티모달 데이터를 한 자리에 모으는 것만으로는 충분하지 않습니다. 응급실 환자 데이터는 검사 시점이 불규칙하고(irregular), 또한 짧은 체류 시간 동안 매우 촘촘한 간격으로 데이터가 수집될 수 있다는 특징을 갖기 때문입니다.
이 문제를 해결하기 위해, 에이아이트릭스는 기존 연구 "Unified Multimodal Set Embedding (UMSE)" (Lee et al., MLHC 2023) 알고리즘을 개발했습니다. 다음과 같이 환자 정보는 세가지로 나눌 수 있습니다:
- 시간 정보: 현재 시점 대비 몇 분/몇 시간 전인지
- 값 정보: 이미지 텐서 / 텍스트 임베딩 / 수치값
- 타입 정보: X-ray / Note / Vital / Lab / ECG 등
UMSE는 실측값을 그대로 반영해, 각 환자에게 어떤 정보가 언제 어떤 형태로 입력됐는지를 정확히 학습합니다. 이를 통해 의료진이 실제로 정보를 관측·종합해 판단하는 과정과 동일한 방식으로 모델이 상황을 이해하도록 합니다.

실제 ER Workflow 기반 모델 구조 - '응급실에서 실제 단계'에 맞춘 2단계 모델
ER 환자는 도착과 동시에 triage 평가를 받고, 그 이후에는 다양한 검사와 모니터링 정보가 순차적으로 쌓입니다. 에이아이트릭스 모델은 이 흐름에 맞춰 다음 두 모델로 구성됩니다:
- Triage Model: 입실 직후 예측
초기 Vital/GCS/KTAS/Demographic/Chief complaint 정도만 있는 “지극히 제한된 정보”로 앞으로 12시간 내 중증 이벤트 가능성을 예측합니다. - Online Monitoring Model: 실시간 업데이트 예측
Triage 이후, 환자에게 새 데이터(혈액검사, 추가 vital, X-ray, 등)가 들어오는 즉시 Transforme가 다시 예측합니다.
이처럼 두 단계로 구성된 구조는 환자 도착 초기부터 모니터링이 누적되는 이후의 흐름까지, 실제 응급실 진료 과정과 정확히 맞물리는 형태로 설계되었습니다.
Fine-Grained 12시간 예측 - 단순 "0~12시간 내 악화 여부"를 넘어서
기존 의료 AI는 대부분 다음과 같은 출력을 생성합니다: "12시간 이내 악화될지 (Yes/No or single probability)"
이 방식은 같은 positive 환자 간에도 우선순위를 정하기 어렵고, "누가 더 빨리 악화될 것인지" 파악하기 어렵다는 문제가 있었습니다. 에이아이트릭스 모델은 이를 다음과 같이 해결합니다.
1시간 단위 × 12개 예측값을 동시에 출력 (0–1시간, 0–2시간, …, 0–12시간)
이렇게 세밀하게 시간대별 위험도를 볼 수 있으면:
- 악화가 임박한 환자는 즉시 집중 관찰/처치가 가능하고
- 가 상대적으로 먼 환자는 자원 배치나 모니터링 전략을 조정할 수 있으며
- 의사/간호사 워크로드를 효율적으로 배분할 수 있고
- ER overcrowding 상황에서는 환자 우선순위를 보다 정확하게 재정렬할 수 있습니다.
즉, fine-grained 예측은 단순한 위험도 판단을 넘어, 응급실 운영 전반의 의사결정 품질을 실질적으로 향상시키는 핵심 요소입니다.
본 모델은 응급실 환경의 다면적 데이터를 그대로 활용할 수 있도록 설계된 멀티모달 AI로, 실제 임상 흐름을 반영한 구조와 12시간 fine-grained 예측 방식을 탑재하고 있습니다.
에이아이트릭스는 이러한 연구를 기반으로 향후 다기관 검증, 프로토타입 CDSS 적용, 실시간 모니터링 시스템 연동 등 실제 임상 적용을 위한 다음 단계 연구도 적극적으로 추진할 예정입니다.
'인사이트' 카테고리의 다른 글
| AI로 더 정밀하게, 환자 예측 기술 3건 특허 취득 (0) | 2025.10.22 |
|---|---|
| IMDRF(International Medical Device Regulators Forum) 28th 발표 및 참관기 (0) | 2025.09.23 |
| 국내 AI 경쟁력 평가에서 주목 받은 에이아이트릭스 (1) | 2025.09.11 |
| 시계열 데이터의 새로운 설명 가능한 AI 기법: TIMING (1) | 2025.08.27 |
| 다양한 환경·데이터 속에서도 통하는 AI — MAES 모델의 현장 성능 검증과 결측값 해석 (0) | 2025.08.19 |