2026년 5월 13일

데이터 품질은 AI 전략입니다

학술 의료 시스템이 AI에 베팅하기 전에 소스에서 데이터를 수정한 이유

고품질 AI의 기본 원칙은 고품질 데이터이며, 이는 트랜잭션 시스템을 먼저 수정하는 것을 의미합니다.
실시간 임상 의사 결정 지원은 이미 응급실에서 오진을 방지하고 있습니다.
도구와 모델은 계속해서 변화할 것입니다. 통합된 데이터로 가치 창출에 집중하는 조직이 가장 큰 혜택을 얻을 것입니다.

의료 분야는 AI의 가장 큰 수혜자 중 하나가 될 수 있습니다. 그렇게 많은 데이터를 생성하는 산업은 드물고, 거기서 통찰력을 추출하여 얻을 수 있는 것이 많은 산업도 드뭅니다. 하지만 데이터를 생성하는 것과 실제로 이를 사용하여 치료를 개선하고, 연구를 가속화하며, 운영을 보다 효율적으로 수행하는 것 사이의 격차는 대부분의 의료 시스템에서 여전히 엄청납니다. 그 격차를 좁히는 곳들은 모델이 아닌 데이터에서 시작합니다.

선도적인 학술 의료 시스템인 NYU Langone Health는 환자 치료, 의학 연구 및 의학 교육을 통해 뉴욕 대도시 지역에 서비스를 제공합니다. NYU Langone은 최근 온프레미스 데이터 레이크를 폐기하고 현재 엔터프라이즈 데이터 웨어하우스를 마이그레이션하고 있는 Databricks를 통합 데이터 및 AI 플랫폼으로 활용하고 있습니다. 이 기관은 치료 제공, 운영 및 연구 전반에 걸쳐 플랫폼을 사용하는 임상의, 분석가, 과학자 및 기업 직장 구성원으로 구성된 광범위한 커뮤니티를 구축했습니다.

NYU Langone Health의 최고 디지털 및 정보 책임자인 Nader Mherabi는 현재의 AI 물결 훨씬 이전부터 기관의 데이터 전략을 이끌어 왔으며, 데이터 기반 의료 시스템의 기반을 구축했습니다. 2017년에 그는 NYU Langone의 데이터 수집 품질을 인식하고 신흥 AI 기능을 통해 더 나아가기 위한 기회를 창출했습니다.

Nader가 되돌아본 비유: 깨끗한 물을 원하면 파이프를 고치십시오. 마지막에 필터링하려고 하지 마십시오.

소스에서 데이터 품질 수정

Aly McGue: NYU Langone은 성숙한 데이터 스택을 갖춘 메트릭 기반 조직입니다. 이미 기능하는 웨어하우스와 데이터 레이크가 있을 때, 현대적인 데이터 플랫폼으로의 전환을 필요하게 만드는 '누락된 조각'은 무엇인가요?

Nader Mherabi: 저희의 경로는 일부 기관과는 약간 달랐습니다. 저희는 항상 매우 데이터 중심적이고 메트릭 중심적인 조직이었습니다. 이미 전통적인 스택에서도 데이터 레이크와 엔터프라이즈 데이터 웨어하우스에 통합된 데이터를 보유하고 있었습니다. 따라서 현대적인 플랫폼으로의 전환은 다른 기관보다 저희에게 더 쉬웠습니다.

하지만 필요성은 명확했습니다. 2017년에 저희는 AI의 잠재력이, 그 아주 초기 단계에서도, 데이터 스택을 현대화해야 한다는 것을 인식했습니다. 모델을 구축하는 것과, 이를 안전하고 안정적인 방식으로 연중무휴로 실행하는 것은 별개의 문제입니다. 저희는 환자 품질, 안전, 효율성 및 의학 연구에 대한 야망을 실현하는 데 도움이 되고 기술이 발전함에 따라 함께 성장할 수 있는 플랫폼이 필요했습니다.

십 년 이상 전에 저희가 수립한 한 가지 기본 원칙은 지능 계층에서 정말로 고품질 데이터를 얻으려면 먼저 트랜잭션 시스템에서 수정해야 한다는 것입니다. 마치 파이프를 통해 오는 물과 같습니다. 수원에서 깨끗한 물이 나오면 마지막에 계속 필터링할 필요가 없습니다. 더러운 물을 필터링하는 것은 비쌉니다. 따라서 목표는 항상 먼저 깨끗한 물을 얻는 것이어야 합니다. 여전히 중간에 필터링해야 하는 것들이 있겠지만, 원칙은 상류에서 제대로 하는 것이어야 합니다.

Aly: 트랜잭션 수준에서 데이터를 수정하는 규율이 데이터 레이어의 실제 유용성을 어떻게 변화시켰나요?

Nader: 몇 년 전, 저희는 통합 식별자 없이 여러 위치에 흩어져 있는 환자 데이터가 있는 많은 시스템을 가지고 있었습니다. 이는 데이터 품질에 큰 도전이며, 이를 통해 할 수 있는 일을 제한합니다. 저희 접근 방식의 일부는 공통 트랜잭션 플랫폼에 투자하는 것이었습니다. 즉, 하나의 전자 건강 기록 및 하나의 ERP 시스템입니다. 새로운 진료소나 병원을 통합할 때, 저희는 모든 사람을 공통 플랫폼으로 통합하는 데 투자한 다음 데이터에 대한 기본 원칙을 만들었습니다.

예를 들어, 저희는 데이터 웨어하우스 계층에서 데이터를 매핑한 적이 없습니다. 저희는 항상 소스에서 수정하려고 합니다. 저희는 시스템과 데이터를 마스터했기 때문에 이것이 환자 데이터의 권위 있는 소스이고, 이것이 재무 데이터의 소스이며, 이것이 운영 데이터의 소스라는 것을 알고 있습니다. 일단 그렇게 하면 데이터 플랫폼이 훨씬 더 의미 있게 됩니다. 사람들은 데이터를 상호 참조할 수 있으며, 이는 의료 분야에서 매우 중요합니다. 환자를 중심으로 생각하십시오. 환자의 치료 데이터를 사용 가능한 임상 시험과 연결하고, 재무 측면, 수술 중 채취된 검체 및 물리적 위치까지 연결해야 합니다. 해당 매핑이 없으면 엄청난 기능을 놓치는 것입니다. 이를 가능하게 하는 기본 원칙은 항상 동일합니다. 상류에서 수정하십시오.

통합 데이터가 실제로 잠금 해제하는 것

Aly: 의료 분야에서는 데이터 정확성에 대한 위험이 높습니다. 통합 데이터 기반은 어떻게 다른 부서 간의 '상충되는 지표' 논쟁을 방지하며, 에이전트 AI 시스템으로 나아갈 때 그 신뢰가 왜 그렇게 중요한가요?

Nader: 매우 중요합니다. AI 이전에도 통합 데이터로 인한 이익은 엄청났습니다. 데이터가 통합되면 더 나은 지표를 만들 수 있으며, 비즈니스의 다른 측면에서 "그 숫자가 말이 안 된다"고 말하지 않을 것입니다. 데이터가 통합되지 않으면 지표가 일치하지 않을 것입니다.

물론 AI를 사용하면 위험이 증가합니다. 훌륭한 데이터가 없으면 훌륭한 AI를 얻을 수 없습니다. 성능은 데이터 품질에 따라 달라집니다. 그리고 실시간 차원도 있습니다. 적시에 적절한 장소에서 사람들의 통찰력을 얻는 것이 중요합니다.

통합 거버넌스는 전략적 AI 필수 요소

Aly McGue: 데이터가 통합되면 다음 과제는 이를 대규모로 검색 가능하고 신뢰할 수 있도록 만드는 것입니다. 데이터 거버넌스는 어떻게 그 과정에 맞나요?

Nader Mherabi: 근본적입니다. 데이터 및 AI 모델에서 작동하려면 카탈로그가 필요합니다. 저희는 Unity Catalog를 사용하고 있으며, 이를 계속해서 발전시키고 있습니다.

하지만 투자는 도구에만 있는 것이 아니라 그 주변의 전략에 있습니다. 마스터 데이터 소스를 정의하고, 카탈로그의 각 부분을 누가 소유할지 결정한 다음, 사람들이 작업을 중복하지 않고 필요한 것을 찾을 수 있도록 더 넓은 커뮤니티에 어떻게 노출할지 신중하게 고려해야 합니다. 방대한 데이터 프로그램을 갖는 것과, 사람들이 그 안에서 올바른 데이터를 실제로 찾는 것은 별개입니다. 이러한 플랫폼을 채택한다면, 저는 항상 처음부터 카탈로그를 제대로 설정할 것을 제안할 것입니다. 그것이 다른 모든 것의 기반이 됩니다.

데이터 리터러시 커뮤니티 구축

Aly McGue: 통합 플랫폼은 기관의 사람들이 실제로 사용할 때만 가치를 제공합니다. 데이터 엔지니어링 팀을 넘어 커뮤니티를 구축하기 위해 어떻게 접근했나요?

Nader: 이러한 플랫폼에 투자할 때는 투자를 최적화해야 합니다. 저희에게는 기관 전체에 걸쳐 이 플랫폼이 무엇을 할 수 있는지 홍보하는 것이 중요합니다. 목표는 모든 환자 상호 작용에서 배우고 그 통찰력을 다시 진료에 반영하는 학습 의료 시스템이 되는 것입니다. 이는 플랫폼을 사용하는 커뮤니티가 IT를 훨씬 넘어서 확장될 때만 작동합니다. 저희는 적절한 액세스 제어 내에서 작업하는 임상의, 분석가 및 과학자로 구성된 광범위한 사용자 기반을 구축했으며, 치료 제공, 운영 및 연구 전반의 사람들이 이를 활용할 수 있도록 문해력 프로그램 및 교육에 투자했습니다. IT를 플랫폼에 참여시키는 것은 당연합니다. 성공의 진정한 척도는 기관의 나머지 부분이 이를 사용할 수 있는지 여부입니다.

가장 중요한 곳에서 실시간 통찰력

Aly: 응급실과 같은 고위험 환경에서는 '다음 날의 통찰력'은 사실상 쓸모가 없습니다. 잘못된 진단을 실제로 방지할 수 있는 레트로스펙티브 보고에서 실시간 임상 의사 결정 지원으로 전환하기 위한 플랫폼의 아키텍처 요구 사항은 무엇인가요?

Nader: 치료 제공에서 영향은 직접적입니다. 저희는 응급실에서 특정 중증 질환을 검색하고 임상의에게 의사 결정 지원을 제공하는 모델을 실행하고 있습니다. 목표는 환자가 퇴원할 때 시스템이 다음을 플래그 지정할 수 있도록 하는 것입니다. 이 진단을 식별했습니까? 이것을 보셨습니까? 왜냐하면 저희가 원하지 않는 것은 심각한 결과를 초래할 수 있는 질환을 놓치고 퇴원하는 환자이기 때문입니다.

저희는 모두 다른 기관에서 잘못된 진단으로 인해 좋지 않은 결과가 발생하는 사례에 대해 듣습니다. 저희는 지속적으로 실행되고 임상의에게 최상의 조언을 제공하는 실시간 모델을 원합니다. 그들의 판단을 대체하는 것이 아니라, "이봐요, 이걸 놓쳤을 수도 있습니다. 다시 한번 살펴보세요."라고 말하는 것입니다. 이를 위해서는 모델이 실시간 데이터가 필요합니다. 그리고 이를 위해서는 데이터 플랫폼이 실시간 피드를 지원해야 하므로 모델이 최신 정보로 작동하고 적시 통찰력을 제공할 수 있습니다.

세 가지 수준의 데이터 분석

Aly: AI가 조직의 분석 및 BI 전략 접근 방식을 어떻게 변화시켰나요?

Nader: 저는 분석이 세 가지 수준이라고 믿습니다. 첫째, 기본적인 시각화를 제공해야 합니다. "무엇을 보고 싶으신가요?"라고만 말할 수는 없습니다. 사람들은 구조화된 시작점이 필요합니다. 둘째, 사람들이 호기심을 갖고 더 깊은 질문을 할 수 있는 Genie와 같은 대화형 계층을 추가합니다. 셋째, 사용자에 따라 다른 형태로 답변을 제공할 수 있어야 합니다. 때로는 직접적인 사실, 때로는 시각화, 때로는 화면의 몇 가지 숫자입니다.

지금 저희가 있는 곳의 강력한 점은 인간-기계 역사상 처음으로 동료에게 묻는 것처럼 인간적인 용어로 기계와 대화할 수 있다는 것입니다. 그것은 분명히 자리가 있습니다. 하지만 저는 모든 사람에게 그것이 어디에 적합한지, 그리고 어느 정도까지인지 고려할 것을 조언할 것입니다. 시각화를 완전히 대체하지 마십시오. 사람들이 호기심을 갖고 더 많은 질문을 하고 간단한 방식으로 스스로 도울 수 있도록 대화형 계층을 추가하십시오.

Aly: AI 개발 속도는 많은 리더들에게 마비될 정도일 수 있습니다. 6개월 후에 기술이 완전히 달라 보일 수 있다는 현실과 안정적인 장기 전략의 필요성 사이에서 어떻게 균형을 맞추시나요?

Nader: 첫째, AI의 예측 불가능성을 받아들이세요. 내일 아침에 일어나면 새로운 것이 등장할 것입니다. 도구와 기술은 계속해서 변화할 것입니다. 그것에 얽매이지 마세요. 플랫폼을 변화의 일부로 성장시킬 수 있는 좋은 파트너를 찾고 가치 창출에 집중하세요.

안전하고 고품질의 치료를 제공하든, 운영 효율성을 개선하든, 환자 경험을 더 좋게 만들든, 그것이 바로 가치입니다. 오늘날의 역량으로 그것을 추구하고 계속 발전시키세요. 그리고 다른 한 가지는 스스로 교육하는 것입니다. 사람들이 망설이는 이유 중 일부는 무슨 일이 일어나고 있는지 이해하지 못한다고 느끼기 때문입니다. 현재의 속도로 시장이 발전함에 따라 더 나은 결정을 내리는 데 도움이 되므로 가능한 한 최신 정보를 파악해야 합니다.

마무리 생각

NYU Langone의 조기 의도적인 접근 방식은 이 논의에서 얻을 수 있는 핵심입니다. 깨끗한 물 은유는 중요한 것을 포착합니다. 다운스트림에서 더러운 데이터를 필터링하는 데 투자하는 조직은 항상 따라잡기식으로 일합니다. 거래 계층에서 문제를 해결하는 조직은 비록 더 오래 걸리고 선불 비용이 더 많이 들더라도 분석에서 AI, 실시간 임상 의사 결정 지원에 이르기까지 모든 후속 투자가 안정적으로 구축될 수 있는 기반을 구축합니다. 환자 안전이 중요한 상황에서는 이러한 규율이 선택 사항이 아닙니다.

업계 리더들의 이야기를 듣고 AI 운영 경로를 정의하려면 Economist Enterprise 보고서 “Making AI Deliver”를 다운로드하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)