본문 바로가기

인사이트

의료인공지능 모델 개발 파이프라인 툴 소개: Clairvoyance

인공지능 기술의 비약적인 발전으로 바이오-헬스 분야와 AI를 접목하는 의료 인공지능 서비스를 개발하기 위해 AITRICS를 비롯한 수많은 연구팀과 회사들이 나서고 있습니다. 하지만 단순한 이미지나 텍스트 데이터를 가지고 만든 최첨단 인공지능 모델들이 의료 전자기록 데이터에 적용되었을 때에 충분한 성능이 나오지 않는 문제들이 지속적으로 발생했습니다. 이러한 원인으로는 복합적인 요인들이 작용하지만, 가장 큰 원인은 ‘의료 데이터 자체의 특수성’이라고 할 수 있습니다.

의료 데이터는 모델을 학습하기 전에 이를 가공하는 전처리 과정에서부터 수많은 난관이 존재합니다. 데이터가 완전하지 않아 비어 있는 경우가 많으며, 환자의 상태나 의료 기록에 따라 진행하는 검사들도 다르므로 주어지는 데이터의 종류가 각양각색입니다. 또한 같은 환자가 여러 번 입원한 경우에는 이를 확인하여 훈련-테스트 오염(train-test contamination)이 발생하지 않도록 조심해야 합니다. 

결국 의료 데이터를 활용하여 인공지능 모델을 만들기 위해서는 전처리 과정에서부터 수많은 선택과 결정이 동반됩니다. 이러한 선택과 결정들이 어우러진 결과에 따라 모델이 학습하는 데이터의 종류는 극명하게 달라집니다.

일반적으로 의료 인공지능 기술을 개발하는 전세계 연구진들은 연구 결과를 발표할 때 이러한 선택과 결정들을 함께 반영하여 발표하지 않는 경우가 많습니다. 그저 어떠한 데이터를 활용하였고, 어떤 모델을 사용하였으며, 결과는 어떠했는지 알려주는 연구들이 대다수입니다. 따라서 연구진마다 자신만의 방법으로 데이터를 가공 및 사용하기 때문에 연구 결과 간의 객관적인 비교가 어려워지고, 좋은 결과가 나왔더라도 이를 타 연구진이 재현할 수 있는 연구 재현성(Reproducibility)이 낮아지는 문제가 대두되고 있습니다.


Clairvoyance


오늘 소개하고자 하는 ‘Clairvoyance: A Pipeline Toolkit for Medical Time Series’는 2021 ICLR에서 발표된 논문으로 위에 설명드렸던 어려움들에 대한 문제의식에서 비롯된 연구입니다.

이 논문의 목적은 ‘의료 인공지능 데이터를 활용하는 연구에서 표준이 될 수 있는 파이프라인을 제공하는 것’입니다. 파이프라인은 인공지능 모델의 개발에 필요한 수많은 과정들을 규격화하고 자동화하여 개발을 편리하고 표준에 맞춰서 진행할 수 있도록 도와주는 기술적 아키텍처입니다.

‘Clairvoyance’는 파이프라인 구축을 통해 크게 3가지의 문제를 해결하기 위해서 제안되었습니다. 첫번째로는 엔지니어링(모델 개발의 어려움), 두번째는 평가(모델의 성능 평가의 어려움), 그리고 마지막 세번째는 효율(모델의 성능을 최적화하는 것의 어려움)의 문제들을 해결하는 것입니다.

 

Clairvoyance: A Pipeline Toolkit for Medical Time Series  [그림 1.]

 

먼저 엔지니어링 관점에서 Clairvoyance는 소프트웨어 도구로써 의료 데이터를 활용한 워크플로우(Workflow)를 만드는 데에 도움을 줍니다. 보통 머신러닝과 의료의 융합의 어려움은 알고리즘 자체에서 오는 것이 아니라 전체적인 과정을 조율하는 것에서 비롯됩니다. 때문에 Clairvoyance는 모델 개발 과정의 많은 단계들을 모듈화하여 연구자가 모든 자잘한 디테일에 관여하지 않고도 간단한 API를 통해서 개발을 완료할 수 있도록 합니다.

다음으로 평가의 관점에서 어떠한 알고리즘의 성능을 평가하는 것은 ‘Context’, 즉 상황과 환경에 따라 결정됩니다. 때문에 서로 독자적인 환경과 데이터 가공을 활용하여 연구를 하면 모델의 성능에 대한 객관적 평가가 어려웠습니다. 

 

Clairvoyance는 따라서 모델의 성능을 객관적으로 평가할 수 있는 표준 (Empirical Standard)로써도 작용할 수 있습니다. 모든 연구자들이 같은 파이프라인을 사용한다면 그들이 개발한 알고리즘과 모델들에 대한 평가 또한 편향적이지 않고 공정하게 진행될 수 있겠지요.

마지막으로 효율의 관점에서 모델의 성능을 최적화하는 방법론에는 제시된 방안들이 많지만 각자 적용되는 방식이 다르기에 이를 일괄적으로 적용하는 데는 애로 사항이 발생합니다. 하지만 Clairvoyance는 모델 개발에 대한 모든 과정을 모듈화하고 있기에 이러한 최적화 방식을 적용하는 인터페이스로써 편리하게 사용될 수 있습니다. 이는 단순한 최적화 기법만 아니라 기계 학습의 전과정을 자동화하는 AutoML 기법을 활용하는 데에도 편리하게 구성되어 있어 발전 가능성이 무궁무진합니다.

 

 

Conclusion


지난달에 소개해드렸던 Nature Protocol에 실렸던 ‘Use of deep learning to develop continuous-risk models for adverse event prediction from electronic health records’논문에 이어 의료 인공지능의 개발에서 나타날 수 있는 문제들과 이를 해결하고자 제시된 Clairvoyance 파이프라인에 대하여 알아보았습니다. 

 

최근에 실제 의료현장에 도입되는 의료인공지능 모델들이 많아지면서 의료인공지능 모델 개발에 대한 관심이 더욱 높아지고 있습니다. 그러면서 동시에 환자들의 의료데이터를 사용한 의료기기이다 보니 데이터의 활용부터 모델의 개발, 적용에 이르기까지 각 단계별로 더욱 엄격한 규정들과 규제들이 생겨나고 있는 것도 현실입니다. 

 

이러한 흐름 속에서 데이터의 수집부터, 모델의 개발, 현장 적용 및 이후의 관리까지 전 단계를 보다 체계적으로 관리하고 감독할 수 있는 시스템의 역할이 더욱 커지고 있습니다.

실제로 최첨단 의료 인공지능을 연구, 개발하는 AITRICS에서는 이러한 논문들을 참고하여 보다 더 체계적인 연구 시스템을 구축하고 실제 임상적으로도 의미 있고 효용성 있는 제품들을 개발하기 위하여 정진하고 있습니다. 의료 인공지능에 관심을 가지신 분들이 이 글을 보고 실제 모델 개발에 필요한 지식들에 조금이라도 보탬이 되었기를 바랍니다. 😊



Reference

“Clairvoyance: A Pipeline Toolkit for Medical Time Series”, Daniel Jarrett, et al., ICLR 2021