Ir para o conteúdo principal
Saúde e ciências da vida

Construindo uma plataforma de dados de saúde nativa FHIR no Databricks Lakebase

por Marcin Jimenez, Aleksandr Kislitsyn e Nikolai Ryzhikov

  • Health Samurai padroniza dados clínicos de HL7v2, C-CDA e X12 em FHIR na ingestão, com normalização de terminologia e desduplicação de pacientes integradas
  • Aidbox roda nativamente no Databricks Lakebase, tornando os dados FHIR instantaneamente disponíveis para Spark, ML e IA sem ETL ou movimentação de dados
  • A arquitetura entrega conformidade com os mandatos CMS-0057 e ONC como um subproduto — não um fluxo de trabalho separado

Dados de saúde residem em dezenas de sistemas: prontuários eletrônicos (EHRs), sinistros, laboratórios, farmácias, determinantes sociais da saúde (SDoH), cada um com seus próprios formatos, códigos e duplicidades. Transformar esse cenário fragmentado em uma base de dados unificada, padronizada com FHIR e confiável é um passo fundamental para melhores resultados, operações mais inteligentes e prontidão regulatória. Neste blog, você aprenderá como Health Samurai e Databricks oferecem as tecnologias para construir essa base em padrões abertos, em qualquer escala.

Hoje, aplicações inteligentes de saúde não operam na periferia do negócio. Elas impulsionam o negócio; desde o fechamento proativo de lacunas de cuidado até o engajamento em tempo real de membros e a garantia de conformidade regulatória por design. Mas essas aplicações exigem uma base de dados que a maioria das organizações de saúde tem lutado para construir: uma base padronizada, governada e acessível a todas as ferramentas do sistema sem a necessidade de mover dados entre sistemas.

E se sua inteligência operacional e suas capacidades analíticas fossem unificadas e verdadeiramente interoperáveis, gerando os mesmos insights?

O desafio: Dados fragmentados, governança fragmentada

O cenário de dados da saúde é unicamente complexo. As informações do paciente estão espalhadas por mensagens HL7v2, documentos C-CDA, transações X12 e formatos proprietários, com cada sistema codificando os mesmos conceitos clínicos de forma diferente. Um único diagnóstico pode aparecer sob múltiplos códigos em múltiplos vocabulários. Um único paciente pode existir como vários registros em vários sistemas.

A abordagem tradicional para unificar esses dados envolve a implantação de um servidor FHIR para interoperabilidade, um data warehouse separado para análise e uma rede de pipelines ETL conectando os dois. Cada sistema mantém seus próprios controles de acesso, trilhas de auditoria e postura de conformidade.

Essa duplicação é custosa. Os mesmos dados clínicos são replicados no servidor FHIR, no data warehouse e em múltiplas camadas de staging — cada um adicionando sobrecarga de armazenamento, computação e operação. Enquanto isso, o próprio servidor FHIR muitas vezes se torna um gargalo. A maioria das implementações foi projetada para casos de uso transacionais — troca de documentos, consultas pontuais, APIs regulatórias — não para os padrões de acesso de análises modernas, pipelines de ML ou agentes de IA que precisam escanear milhões de recursos de forma eficiente.

Como resultado, as organizações são forçadas a fazer concessões: superprovisionar a infraestrutura FHIR para manter o desempenho ou extrair dados para mais um sistema para torná-los utilizáveis.

O resultado é previsível: movimentação lenta de dados, governança fragmentada e iniciativas de IA paralisadas — porque os modelos não conseguem acessar de forma confiável dados limpos, confiáveis e bem governados onde são necessários. Os custos aumentam, enquanto a flexibilidade diminui; você não pode construir aplicações de saúde inteligentes sobre dados isolados, inconsistentes e mal governados.

A visão: Um conjunto de dados, todas as ferramentas, sem movimentação de dados

Imagine uma única plataforma onde os dados clínicos são padronizados para FHIR no ponto de entrada — onde esses mesmos dados, sem qualquer movimentação ou transformação, estão imediatamente disponíveis para análises Spark, modelos de ML, agentes de IA e dashboards de BI. Onde a conformidade não é um fluxo de trabalho separado, mas uma propriedade natural da arquitetura. Onde todas as ferramentas, do EHR ao notebook do cientista de dados, veem os mesmos dados governados e confiáveis.

É isso que Health Samurai e Databricks construíram juntas.

Como funciona: Health Samurai

Agregação e padronização

A primeira etapa da qualidade dos dados determina a última etapa do insight. Health Samurai fornece as tecnologias e a expertise para coletar e padronizar dados de diversas fontes em uma base de dados unificada e nativa de FHIR.

Tudo nesta camada é construído com a interoperabilidade em mente. Formatos de dados e APIs são baseados em HL7 e X12 — incluindo FHIR R4/R5, HL7 v2, C-CDA e X12. O significado clínico é representado usando sistemas de códigos amplamente adotados, como LOINC, SNOMED CT, RxNorm e ICD-10. A conformidade com casos de uso específicos é definida através de Guias de Implementação FHIR como US Core, CARIN Blue Button, Da Vinci PDex e mCODE — com sistemas de códigos e IGs adicionais incorporados à medida que os regulamentos e os requisitos dos parceiros evoluem.

Esta é uma escolha arquitetural deliberada, não um item a ser marcado. Padrões abertos significam garantir que seu modelo de dados não esteja preso a um único fornecedor. Os mesmos recursos FHIR que impulsionam a interoperabilidade hoje podem suportar análises, IA e aplicações futuras sem retrabalho. Mudar de ferramentas não deve exigir a remodelação dos seus dados.

As principais capacidades incluem:

  • Conversores HL7v2, C-CDA e X12 de código aberto transformam dados legados em FHIR — o padrão moderno para interoperabilidade em saúde.
  • Servidor de Terminologia Nativo FHIR normaliza códigos entre vocabulários, garantindo que um diagnóstico seja contado uma vez, independentemente do sistema de origem.
  • MDM/MPI (Gerenciamento de Dados Mestre / Índice Mestre de Pacientes) deduplica registros de pacientes para que um paciente seja igual a um registro principal.
  • Guias de Implementação e Validação FHIR impõem a qualidade e a conformidade dos dados no ponto de entrada — não depois.

O resultado são dados FHIR limpos e padronizados com um único registro principal por paciente. Qualidade e transparência são fundamentais e não uma abordagem reativa.

Health Samurai ajuda a configurar esses pipelines e ferramentas para o cenário de dados específico de cada organização.

Acesso em todos os lugares — Zero ETL

É aqui que a arquitetura se torna transformadora.Aidbox — o Servidor e Banco de Dados FHIR da Health Samurai — roda nativamente no Databricks Lakebase.

Lakebase é um banco de dados Postgres totalmente gerenciado e sem servidor, integrado à Plataforma de Inteligência de Dados da Databricks. Como o Aidbox roda diretamente no Lakebase, os dados FHIR estão imediatamente disponíveis em todo o conjunto de ferramentas Databricks — sem necessidade de ETL.

Os dados são replicados através doMoonlink, um motor de sincronização em tempo real entre formatos operacionais e analíticos, com zero ETL. Isso permite que os dados FHIR fluam perfeitamente para a camada analítica, eliminando as dependências de pipelines, transformações ou atrasos.

Isso criadois padrões de acesso complementares a partir de um único conjunto de dados, ambos impulsionando suas cargas de trabalho analíticas e operacionais:

  1. Acesso nativo Databricks: Spark, SQL, ML, IA/BI — para análise, ciência de dados e IA
  2. Acesso baseado em padrões: API FHIR, SMART on FHIR e Visualizações SQL on FHIR (um novo padrão HL7 que achata recursos FHIR aninhados em visualizações tabulares para análise)

O que você pode construir

Com dados FHIR unificados e o poder combinado de Health Samurai e Databricks, as organizações podem abordar de forma flexível seus desafios específicos:

Otimização de EHR e cuidados baseados em valor

Suporte à decisão clínica e administrativa impulsionado por IA da Databricks se conecta de volta aos fluxos de trabalho de EHR e faturamento através de SMART on FHIR e CDS Hooks. Isso permite:

  • Pontuação HEDIS/STARS e medição de qualidade
  • Otimização de ajuste de risco e captura de HCC
  • Análise de contratos e rastreamento de economia compartilhada
  • IA Agente que fecha lacunas de cuidado proativamente — não retroativamente

A base nativa FHIR significa que os insights fluem diretamente de volta para os clínicos no ponto de atendimento, incorporados em seus fluxos de trabalho existentes.

Engajamento de membros em escala

Construa relacionamentos significativos com pacientes e membros através de:

  • Portais do paciente com a API FHIR como espinha dorsal — em conformidade com os padrões por design
  • Comunicação personalizada em escala usando modelos de propensão no Databricks para determinar o canal, mensagem e tempo corretos para milhões de membros
  • API de Acesso ao Paciente incluída como uma propriedade natural da arquitetura

Conformidade — integrada, não adicionada

Ao construir sobre FHIR, as organizações abordam mandatos como CMS-0057 (Interoperabilidade e Acesso do Paciente) e requisitos da ONC como uma propriedade natural de sua arquitetura:

  • conformidade com aRegra de Acesso do Paciente
  • troca de dados dePagador para Pagador
  • prontidão paraCertificação de TI em Saúde da ONC

A conformidade não é um projeto separado; é um subproduto de fazer as coisas direito.

Por que isso importa agora

Os prazos regulatórios da CMS e da ONC estão se aproximando rapidamente, e a IA está passando de pilotos para produção — mas apenas em dados confiáveis e governados. A abordagem tradicional de manter um servidor FHIR separado, uma plataforma de análise separada e pipelines ETL conectando os dois é muito lenta, muito cara e muito frágil para as demandas da saúde moderna.

Lakebase protege seus investimentos em interoperabilidade para o futuro. Seu servidor FHIR é executado em sua Plataforma de Inteligência de Dados. Suas operações clínicas e sua análise compartilham a mesma fonte de verdade para informações. Unity Catalog governa tudo, desde dados operacionais até insights e IA. E os padrões abertos significam a flexibilidade de não ter dependência de fornecedor.

Comece

Health Samurai e Databricks — tecnologias abertas para sua Plataforma de Dados de Saúde.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.