본문 바로가기

인사이트

기존 평가도구의 한계를 극복하는 인공지능

병원 내 환자 위험도 평가도구 / 메디컬 스코어

앞선 글에서 설명드린 것과 같이, 패혈증은 미생물 감염으로 환자들의 장기를 손상시키고 이로인해 사망에까지 이르게 할 수 있는 위험한 급성 중증 상태입니다.

현재 병원 내 환자들의 위험도를 평가하기 위해 다양한 메디컬 스코어들이 사용되고 있습니다. 그 중에서 장기부전에 따른 환자의 사망 가능성을 점수화 해주는 메디컬 스코어를 패혈증에 따른 위험도를 측정하는 평가도구로 사용하고 있지만, 질병 발생을 사전에 예측할 수 없어 환자의 상태가 나빠지기 전에 선제적인 처치를 하기 위한 도움을 받기에는 어려움이 많습니다. 이러한 메디컬 스코어로는 대표적으로 중환자실에서 사용할 수 있는 SOFA(Sequential Organ Failure Assessment)와 일반병동에서 사용할 수 있는 qSOFA(quick SOFA)가 있습니다.

SOFA를 계산하기 위해서는 아래 총 6가지 항목을 실시간으로 측정합니다.

  • 호흡수
  • Platelets
  • Bilirubin
  • 심혈관 수치 (평균동맥압, 약물정보(도파민, 도부타민, 에피네프린, 노르에피네프린))
  • 의식수준 (GCS)
  • 신장기능 (크레아틴 수치, 소변량)

이 외에 환자의 나이와 만성질환 보유 여부가 추가적으로 점수 계산에 사용됩니다.

 

SOFA는 위 6가지 측정 항목들에 대해 최근 24시간 이내 가장 안좋은 수치를 이용하여 각 항목의 점수를 계산하고, 각 항목별 점수(나이와 만성질환 보유 여부에 따른 점수까지 포함)를 모두 합산하면 최종 SOFA 점수가 나오게 됩니다. qSOFA의 경우 일반병동에서는 SOFA점수 계산에 필요한 6가지 항목들의 값을 모두 구하는 것이 어려워, 일반병동에 맞게 항목들을 간략화한 점수입니다.

qSOFA를 계산하는데 필요한 항목들은 다음과 같습니다.

 

  • 호흡수
  • 의식수준 (GCS)
  • 수축기 혈압

SOFA와 qSOFA의 각 항목별 점수를 구하는 방법은 아래의 표와 같습니다.

 

[J.-L. Vincent, et al., The SOFA (Sepsis. related Organ Failure Assessment) score to describe organ dysfunction/failure, 1996]
[Mervyn Singer, et al., The Third International Consensus Definitions for Sepsis and Septic Shock (Sepsis-3) 2016]

 

이와 같이 메디컬 스코어 SOFA와 qSOFA는 이미 발생한 장기 부전을 평가하는 도구이므로, 패혈증 발생의 사전예측 도구라고 볼 수는 없습니다. 따라서 일선 병원의 현장에서 두 평가도구를 이용해 패혈증의 발생 여부를 사전 예측하려 한다면, 그 예측 성능이 매우 낮아 조기 예측이 제대로 이루어지지 않는 등 다양한 문제점이 발생할 수 있습니다.

최근에는 병원 내 빅데이터 사용이 가능해지고 기계학습과 딥러닝 모델이 계속해서 발전하여 기존에 사용되고 있는 메디컬 스코어들을 대신하여 패혈증 조기 예측에 초점을 맞춘 모델 개발이 활발히 이루어지고 있습니다. 

패혈증은 조기 예측을 통해 적절한 치료가 이루어질 경우, 이로 인한 사망률을 현저하게 낮출 수 있으며 환자의 예후 개선에도 큰 도움이 되기에 의료업계에서 특히나 주목하고 있는 연구 분야입니다.


패혈증을 사전에 예측하는 인공지능 모델

저희 AITRICS에서는 딥러닝 모델을 기반으로 패혈증을 조기에 예측하는 의료기기 소프트웨어 AITRICS-VC(바이탈케어)를 만들었습니다. AITRICS-VC(바이탈케어)에 적용되는 인공지능 모델 개발의 단계는 크게 ‘데이터 확보-데이터 전처리 및 레이블 작업-모델 학습-모델 평가-임상시험을 통한 모델 성능 확인’ 5단계로 나누어 볼 수 있습니다.

먼저 첫 단계인 ‘데이터 확보’는 딥러닝 모델 개발에 있어 가장 필수적인 단계라고 말씀드릴 수 있습니다. 성능이 좋은 딥러닝 모델을 만들기 위해서는 최신 모델 구조들과 학습 알고리즘을 적용하는 것도 중요하게 작용할 수 있지만, 그보다도 우선적으로 양질의 데이터를 최대한 많이 확보하는 것이 가장 중요합니다. 

 

이를 위해 AITRICS는 가장 대표적으로 사용되는 의료 오픈 데이터인 ‘MIMIC-III 데이터’와 MOU를 체결한 국내의 여러 상급 병원에서 확보한 입원 환자들의 데이터를 활용하고 있습니다. 이는 국내 병원의 데이터는 각 기관의 IRB(임상연구심의위원회)의 승인 및 익명화를 거쳤으며, 엄격한 데이터 보안 절차를 따르고 있습니다.

데이터 확보 이후에는 해당 데이터들을 모델 학습에 사용할 수 있도록 적절한 Feature를 찾아내기 위한 전처리 작업을 하고, 지도학습(Supervised Learning)을 위해 데이터의 명시적인 정답을 표기하는 레이블 작업을 진행합니다.

지도학습에서는 레이블을 어떻게 정의하느냐에 따라 결과가 달라질 수 있습니다. 대부분의 경우 데이터 자체에 레이블 정보가 포함되어 있어 해당 레이블을 그대로 사용하면 되지만, 그렇지 않은 경우에는 적절한 방법을 통해 직접 레이블을 작성해야 합니다. AITRICS가 사용한 데이터 역시 데이터 자체에는 패혈증 발생 시점이 기록되어 있는 데이터가 없었기 때문에, 주어진 데이터를 이용해 저희가 직접 패혈증 발생 시점을 추정하여 레이블을 작성했습니다. 

 

이 때 사용한 방법은 임상현장에서 널리 사용되는 패혈증 진단 가이드 규칙입니다. 이는 크게 두 단계로 나누어지는데 먼저 환자의 ‘감염 의심 시점’을 찾고(1), 감염 의심 시점을 기준으로 특정 시간 간격 사이에 환자한테서 장기부전의 현상이 나타나는 시점(2)을 패혈증 발생시점으로 잡는 것 입니다.

  • ‘감염 의심 시점’ 확인 방법
    혈액배양 검사를 실시한 환자들 중, 검사 전후 이틀 사이(총 5일간)에 4일 이상 연속해서 항생제가 투여된 환자들의 혈액배양 검사 시기를 감염 의심 시점으로 정의합니다.

  • 중환자실 환자의 장기부전 진단 방법
    감염 의심 시점 이틀 전과 감염 후 하루 뒤 기간 사이에 환자의 SOFA점수가 2점 이상 변화되는 시점을 장기부전 현상이 발생한 시점으로 진단합니다.

 

  • 일반병동 환자의 장기부전 진단 방법
    일반병동 환자들의 경우 하단 표의 6가지 규정들 (강심제 사용, 인공 호흡기 사용, 크레아틴 수치가 2배 이상 되거나 사구체 투과율이 기준치 대비 50%이상 감소, 빌리루빈 수치가 2.0 이상이거나 기준치 대비 2배 이상일 경우, 혈소판 수가 100 미만으로 떨어지거나 기준치 대비 50%이상 감소, 젖산염 수치가 2.0 이상이 되는 경우) 중 하나라도 해당이 되면, 해당되는 요소 중 발생 시기가 가장 빠른 시점을 패혈증 발생 시점으로 정의합니다.

데이터 전처리 및 레이블 작업까지 마친 뒤, 시계열(Time-series) 데이터를 다루는 대표적인 딥러닝 모델 ‘RNN (Recurrent Neural Network)’을 사용하여 패혈증 예측 모델을 디자인하고 만들어진 데이터들을 이용해서 모델 학습을 진행합니다. AITRICS가 패혈증 예측에 사용한 Feature들은 크게 두 가지 형태로 구분되어 있습니다.

  • 시계열 데이터: 입원 환자들의 혈액검사 결과, 생체신호 결과
  • 고정형 데이터: 환자들의 인구학적 기본정보(나이, 성별 등), 시계열 데이터의 가장 최근 시점의 데이터

입력 데이터의 형태

 

입력 데이터를 이렇게 두 가지 형태로 만들어 사용한 것 처럼, 네트워크 역시 고정 데이터를 다루는 네트워크와 시계열 데이터를 다루는 네트워크, 두 가지로 구성했습니다. 

 

각각의 네트워크를 통해 시계열 데이터와 고정형 데이터에 대한 특징을 추출하여, 추출된 특징 벡터들을 합친 뒤 예측 네트워크를 사용하여 최종적으로 환자의 패혈증 발생 여부를 예측하도록 모델을 구성하였습니다. 모델의 상세한 구조는 아래의 그림을 참고하시면 됩니다.

 

패혈증 발생 여부 예측 모델의 네트워크 구조도

모델 학습 뒤에는 학습에 사용하지 않았던 데이터들을 이용해 모델의 성능을 확인합니다.

기존의 다른 패혈증 평가도구와 비교하여, AITRICS의 AITRICS-VC(바이탈케어)는 3가지 예측 시간대 모델을 이용하여 임상 현장에서 의료진들에게 보다 더 구체적인 패혈증 발생 시점 정보를 제공할 수 있습니다. 2시간 / 4시간 / 6시간 이내 패혈증 발생 여부를 예측하는 모델, 이렇게 총 3가지를 조합하면 아래 표에서 처럼, 각각의 경우에 대해 환자의 패혈증 발생 시점을 보다 구체적으로 제시할 수 있습니다. 이러한 정보를 통해 의료진들은 패혈증 발생을 예방하기 위한 적절한 치료 시기를 판단할 수 있습니다.

 

 

현재 최종적으로 AITRICS의 AITRICS-VC(바이탈케어)에 적용된 모델을 실제 병원에서 사용할 수 있도록, 임상 성능을 검증하기 위해 임상시험을 진행하고 있습니다.

위와 같은 과정을 거쳐 AITRICS-VC(바이탈케어)는 패혈증 조기 예측을 통해 의료진이 사전에 적절한 대응을 할 수 있도록 보조함으로써, 패혈증으로 인한 환자의 사망률을 낮추기 위하여 개발되었습니다. 현재 진행중인 임상시험 및 인허가를 하루빨리 완료하여 실제 의료 현장에서 쓰일 수 있기를 바랍니다.

AITRICS는 더 많은 질병을 사전에 예측하고, 더 정확한 정보로 의료진을 서포트할 수 있도록 좋은 모델을 계속해서 개발해나갈 것 입니다.

의료 현장에서 딥러닝 모델이 실제로 사용되기 위해서는 단순히 높은 예측 성능만으로는 부족합니다. 그에 더해 해당 기술과 제품을 사용하는 의료진이 그 모델을 온전히 신뢰하고 사용하기 위해서 모델의 결과에 대한 해석, 즉 결과값이 나온 이유를 함께 제공하는 것이 필요합니다. 이어서 연재될 블로그 포스팅을 통해 이러한 기능들이 AITRICS-VC(바이탈케어)에 어떻게 적용되었는지에 대해 설명해드리겠습니다.