Ir para o conteúdo principal

Exai Bio e Databricks: acelerando a biópsia líquida com tecnologia de AI para detecção precoce do câncer

exaibio

Published: January 27, 2026

Saúde e ciências da vida9 min de leitura

Summary

  • Avanços em IA generativa na detecção do câncer: a Exai Bio desenvolveu o Exai-1 e o Orion, dois modelos de IA generativa que analisam o RNA livre de células para melhorar significativamente a remoção de ruído do sinal e a detecção precoce do câncer, alcançando 94% de sensibilidade para o câncer de pulmão.
  • Impulsionado pela infraestrutura da Databricks: esses avanços aproveitam a arquitetura lakehouse e o ecossistema MLOps da Databricks (incluindo MLflow e tabelas Delta) para unificar grandes datasets genômicos, gerenciar clusters de compute escaláveis e garantir o treinamento de modelos reprodutível.
  • P&D acelerado e aumento de dados: a plataforma permite o uso de dados sintéticos para superar a escassez de amostras e otimiza a colaboração, permitindo que a equipe da Exai produza sete publicações em conferências demonstrando eficácia em vários tipos de câncer em apenas 18 meses.

As biópsias líquidas permitem a triagem e o monitoramento não invasivos do câncer por meio da análise de biomarcadores de câncer no sangue, mas os sinais podem ser esparsos e ruidosos. A Exai Bio foi pioneira na biópsia líquida orientada por IA usando novos biomarcadores de RNA pequeno. Em um trabalho recente, o Exai-1 e o Orion – duas novas IAs generativas para RNA livre de células – alcançam avanços na redução de ruído do sinal e na detecção precoce do câncer. Esses avanços foram possíveis graças à arquitetura lakehouse e à infraestrutura de IA na nuvem da Databricks. Ao unificar grandes conjuntos de dados genômicos e fornecer ferramentas de ML gerenciadas (MLflow, fluxos de trabalho, clusters escaláveis), a Databricks permite que os pesquisadores da Exai treinem grandes modelos multimodais em milhares de amostras de pacientes. Neste esforço conjunto, destacamos os avanços técnicos da Exai Bio e mostramos como o ecossistema de lakehouse e MLOps da Databricks acelera a IA biomédica de ponta.

Modelos de base multimodais para biópsia líquida

A pesquisa mais recente da Exai Bio apresenta grandes modelos generativos personalizados para dados de biópsia líquida. Esses modelos integram informações de sequência, abundância molecular e metadados ricos para aprender representações de alta qualidade de RNAs associados ao câncer.

  • Exai-1 (Modelo de Fundação de cfRNA): um autoencoder variacional baseado em transformer que une embeddings de sequência de RNA com perfis de abundância de RNA livre de células (cfRNA). O Exai-1 é pré-treinado em massivos datasets — mais de 306 bilhões de tokens de sequência de 13.014 amostras de sangue —, aprendendo uma estrutura latente biologicamente significativa da expressão de cfRNA. Ao aproveitar tanto os dados de sequência (via embeddings do modelo de linguagem RNA-FM) quanto os de expressão, o Exai-1 “aumenta a fidelidade do sinal, reduz o ruído técnico e melhora a detecção de doenças ao gerar perfis sintéticos de cfRNA”. Na prática, o Exai-1 podereduzir o ruído de medições esparsas de cfRNA e até mesmo aumentardatasets: classificadores treinados nos perfis reconstruídos do Exai-1 superam consistentemente o desempenho daqueles treinados em dados brutos. Essa abordagem generativa de aprendizagem por transferência cria efetivamente um modelo de fundação para qualquer tarefa de diagnóstico baseada em cfRNA – por exemplo, usando os mesmos embeddings pré-treinados para detectar outros tipos de câncer ou novos biomarcadores.
     
  • Orion (Classificador Generativo de oncRNA): um autoencoder variacional (VAE) especializado para RNAs não codificantes órfãos (oncRNAs) circulantes, que são pequenos RNAs secretados por tumores. O Orion tem uma arquitetura de VAE duplo: ele recebe como entrada um vetor de contagem de oncRNAs associados ao câncer e um vetor de RNAs de controle (por exemplo, RNAs de manutenção endógenos). Cada entrada alimenta um codificador separado; seus resultados permitem o treinamento de um classificador robusto e a reconstrução da distribuição de oncRNA subjacente. É importante ressaltar que o treinamento do Orion inclui perdas contrastivas e de classificação: uma perda de margem de trio aproxima amostras com o mesmo fenótipo (câncer vs. controle) e afasta fenótipos diferentes, removendo efeitos de lote e variações técnicas. O embedding aprendido é então usado por um classificador downstream para prever a presença de câncer. Em uma coorte de 1.050 pacientes com câncer de pulmão e controles, o Orion alcançou 94% de sensibilidade com 87% de especificidade para detecção de câncer de pulmão de células não pequenas (CPNPC) em todos os estágios, superando os métodos padrão em ~30% nos dados de teste. Este modelo generativo e semissupervisionado remove automaticamente o ruído dos sinais de cfRNA e produz uma impressão digital compacta e específica do câncer, permitindo uma detecção precoce mais precisa do que os ensaios anteriores.
     
Arquitetura do modelo Orion da Exai Bio para biópsia líquida

Figura 1: Arquitetura do modelo Orion da Exai Bio para biópsia líquida. Imagem de Karimzadeh et al., Nat Commun.

Juntos, esses modelos formam uma estrutura de AI escalável para biópsia líquida. O Exai-1 fornece um "modelo de linguagem" de cfRNA de uso geral que pode gerar perfis de RNA realistas e impulsionar classificadores subsequentes. O Orion aprimora essa abordagem para o problema específico do rastreamento do câncer de pulmão. Em ambos os casos, os modelos generalizam para diferentes condições — o Exai-1 “facilita a tradução entre biofluidos e a compatibilidade de ensaios” ao separar os sinais biológicos verdadeiros dos fatores de confusão. O resultado é uma nova geração de ferramentas de AI que podem extrair padrões sutis de biomarcadores de cfRNA para a detecção precoce do câncer e a descoberta de biomarcadores.

Plataforma de IA e Inteligência de Dados da Databricks: a infraestrutura que viabiliza

Esses avanços em AI são impulsionados pela plataforma unificada de análise de dados da Databricks. Os principais recursos incluem:

  • Armazenamento unificado do lakehouse (Delta): armazenamos todos os metadados (informações de amostras, dados de laboratório e de experimentos) em tabelas do Databricks Delta. Este lakehouse único evita silos de dados e permite análises em tempo real. Conforme observa a solução da Databricks para a área da saúde, o lakehouse “reúne dados de pacientes, de pesquisa e operacionais em grande escala” e elimina silos legados, tornando os dados genômicos e clínicos instantaneamente consultáveis. Por exemplo, as mais de 13.000 amostras de sangue da Exai (em soro e plasma) e mais de 10.000 datasets anteriores de small-RNA-seq estão todos registrados em tabelas Delta, que podem ser rapidamente filtradas e unidas para o treinamento do modelo.
     
  • Compute e clusters escaláveis: os clusters nativo cloud do Databricks permitem que os pesquisadores iniciem instâncias de GPU ou de alta memória sem grande esforço de DevOps. O Databricks nos permite agir rapidamente. O gerenciamento de clusters é intuitivo, e recursos como encerramento automático e painéis de custos mantêm os orçamentos sob controle. Esse escalonamento sob demanda permitiu a otimização e o treinamento do Exai-1 e do Orion em centenas de núcleos de CPU/GPUs. Os Databricks Workflows (anteriormente Jobs) organizam a “compute”: os pesquisadores podem iniciar pipelines de ETL e de treinamento de vários estágios com dependências definidas, paralelizando tarefas sem escrever código de orquestração complexo.
     
  • MLflow para MLOps: cada execução de experimento (hiperparâmetros, datasets, métricas, artefatos) é rastreada no MLflow, que é totalmente integrado ao Databricks. O Databricks fornece toda a configuração do ambiente MLflow, como o servidor de rastreamento, e a disponibiliza sem nenhuma configuração. O rastreamento de experimentos e o registro de modelos do MLflow garantem a reprodutibilidade e a colaboração. Com o MLflow gerenciado, o registro de métricas e artefatos de dezenas de modelos tornou possível realizar estudos de ablação e otimizar recursos que melhoram diferentes aspectos do desempenho do modelo.
     
  • Ambientes reprodutíveis: o Databricks Container Services e os Repos baseados em Git (com CI/CD) fixam as dependências de software para cada pipeline. Isso tem sido crucial para a pilha de pesquisa da Exai Bio (incluindo ferramentas de bioinformática personalizadas), garantindo que cada membro da equipe execute modelos em ambientes idênticos. Em resumo, o Databricks oferece uma plataforma MLOps pronta para uso: ingestão de dados com o Spark, rastreamento de experimentos com o MLflow, orquestração com Jobs/fluxos de trabalho, e computação elástica com escalonamento automático.

Impacto na detecção de câncer e na descoberta de biomarcadores

Os avanços científicos e de engenharia combinados têm grandes implicações:

  • Detecção precoce aprimorada – Ao amplificar o sinal de câncer do cfRNA em contraste com o fundo de moléculas de RNA do sangue, nossos modelos de IA podem detectar o câncer em estágios iniciais. A remoção de ruído do Exai-1 produz sinais mais claros, mesmo em amostras de sangue de pequeno volume, enquanto o embedding generativo do Orion alcança alta sensibilidade (94%) para o câncer de pulmão em estágio inicial. Tais melhorias poderiam se traduzir em testes de triagem mais confiáveis (por exemplo, exames de sangue anuais) que detectam tumores em estágios curáveis.
     
  • Novas percepções sobre biomarcadores – Os modelos aprendem a partir de dados brutos de RNA, reduzindo os vieses de painéis direcionados. Por exemplo, o Orion identificou centenas de oncRNAs inéditos a partir de dados do TCGA e de tecidos e, depois, validou sua importância no sangue. O espaço latente do Exai-1 combina informações de sequência, estrutura e abundância de RNA, o que pode destacar biomarcadores anteriormente negligenciados. É importante ressaltar que o paradigma de aprendizagem por transferência nos permite incorporar novas descobertas rapidamente (por exemplo, trocando por novos tokens de sequência) e fazer o ajuste fino na plataforma unificada.
     
  • Aumento de dados generativo – O Exai-1 pode simular perfis de cfRNA realistas por amostragem de seu decodificador. Esses dados sintéticos impulsionam o treinamento do classificador, como demonstrado por AUCs mais altos ao usar as reconstruções do Exai-1. Na prática, isso significa que assinaturas raras de câncer podem ser aprendidas de forma mais robusta, apesar do número limitado de amostras reais. Em outras palavras, o modelo de base mitiga a escassez de dados – um fator crítico, já que “detectar cânceres raros... requer modelos de base e dados de treinamento substanciais”.
     
  • Colaboração em pesquisa escalável – Ao desenvolver na Databricks, a equipe multidisciplinar da Exai (biólogos, bioinformatas, bioestatísticos, cientistas de ML e engenheiros de dados) pode colaborar de forma integrada. Cientistas de dados executam PyTorch e Spark lado a lado, bioestatísticos consultam coortes com R, biólogos registram novas amostras processadas e relatórios/dashboards são atualizados automaticamente. Esse ciclo rápido de feedback permitiu que a equipe da Exai demonstrasse as aplicações de seu sistema de biópsia líquida e IA em vários tipos de câncer, resultando em sete publicações em conferências em 18 meses. Isso exemplifica como a infraestrutura de IA de nível empresarial acelera a P&D em ciências da vida.

Perspectivas futuras

A colaboração entre a Exai Bio e a Databricks demonstra como modelos de AI de ponta e uma arquitetura cloud moderna, juntos, expandem as fronteiras do diagnóstico de câncer. Os modelos de base e de AI generativa da Exai Bio (Exai-1 e Orion) demonstram que o aprendizado generativo profundo pode extrair sinais poderosos de biópsias líquidas. Na base desses avanços está o lakehouse da Databricks – que unifica dados biomédicos heterogêneos – e suas ferramentas de ML gerenciadas (MLflow, fluxos de trabalho, pipelines), que tornam a experimentação em grande escala prática e reprodutível. Olhando para o futuro, continuaremos a refinar nossos modelos e pipelines. Juntas, a Exai Bio e a Databricks estão estabelecendo as bases para uma oncologia de precisão impulsionada por AI que seja escalável e com impacto clínico.

Fontes: Exai Bio et al., “Um modelo de linguagem de cfRNA multimodal para biópsia líquida” (Nature Machine Intelligence, 2025); Exai Bio et al., Nature Commun. (2024) “Modelos de IA generativa profunda que analisam RNAs não codificantes órfãos circulantes…”; documentação da Databricks e blogs.

 

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?

De-identifying Medical Images Cost-Effectively with Vision Language Models on Databricks

Saúde e ciências da vida

November 4, 2025/6 min de leitura

Desidentificando imagens médicas com bom custo-benefício com modelos de linguagem de visão no Databricks

databricks x nvidia industry solutions

Saúde e ciências da vida

December 1, 2025/5 min de leitura

Databricks e NVIDIA: impulsionando a próxima geração de AI para as indústrias