Ir para o conteúdo principal

Como a Kythera Labs, uma parceira construída na Databricks, economiza mais de $2M/ano usando o Delta Sharing

Dê uma olhada nos bastidores de como a Kythera Labs reduziu custos e acelerou o compartilhamento de dados de saúde na nuvem - usando o Delta Sharing.

How Kythera Labs, a Databricks Built-On Partner, saves $2M+/year using Delta Sharing

Published: September 4, 2025

Clientes5 min de leitura

Summary

  • A Kythera Labs usa o Delta Sharing para compartilhar dados em tempo real com organizações de saúde e ciências da vida.
  • Delta Sharing supera métodos antigos como SFTP e APIs, permitindo colaboração segura entre nuvens sem cópias extras ou transferências caras.
  • Resultados do mundo real: 80% menos armazenamento, economia de milhões de dólares e insights mais rápidos de conjuntos de dados tão grandes quanto 3,5 petabytes.

Os sistemas de saúde geram enormes quantidades de dados sensíveis, mas mover, compartilhar e analisar esses dados de forma segura entre organizações ainda é um grande desafio. Neste post, vamos ver como nós da Kythera Labs usamos o Databricks e o Delta Sharing para gerenciar mais de 300 milhões de registros de pacientes e apoiar colaborações em saúde e ciências da vida. O blog abordará as questões práticas com métodos mais antigos de compartilhamento de dados, por que adotamos o Delta Sharing e o impacto que isso teve em nossos custos de armazenamento, eficiência e colaboração em tempo real.

Fazendo os Dados Funcionarem na Saúde: A Abordagem da Kythera

Kythera Labs é uma empresa de tecnologia de dados que capacita organizações de saúde e ciências da vida com uma plataforma unificada de dados de saúde de alta fidelidade para análise. Como um Parceiro construído na Databricks, escolhemos a Databricks e o Delta Sharing não apenas para compartilhamento interno de dados, mas também para suportar a troca de dados sem interrupções com parceiros externos. Hoje, mais de 80% de nossos clientes usam produtos construídos na plataforma. Também apoiamos colaborações externas, incluindo organizações como Exact Sciences, usando o Delta Sharing em 50 espaços de trabalho ativos de clientes.

Por que Delta Sharing?

A Kythera Labs escolheu o Delta Sharing para superar desafios significativos no compartilhamento seguro de dados de saúde. Com mais de 300 milhões de registros de pacientes abrangendo uma década de histórico clínico, os métodos tradicionais exigiam a criação e movimentação de várias cópias completas de conjuntos de dados, elevando os custos de armazenamento para centenas de milhares de dólares e retardando a entrega.

O Delta Sharing muda isso ao permitir acesso seguro e em tempo real a dados ao vivo sem criar cópias duplicadas. Em vez de armazenar e manter conjuntos de dados separados para cada parceiro ou ambiente, podemos compartilhar uma única fonte de verdade governada diretamente. Esta abordagem nos permitiu alimentar equipes internas e colaborações externas com apenas 3,5 PB de armazenamento, em vez dos mais de 20 PB que seriam necessários.

Outra complexidade é atender nossos clientes onde eles estão na nuvem. Os prestadores de serviços de saúde geralmente operam no Azure, enquanto muitas empresas farmacêuticas funcionam no AWS ou GCP. Sem uma tecnologia como o Delta Sharing, a entrega de grandes conjuntos de dados entre nuvens significaria transferências caras, trabalho complexo de ETL e várias cópias desatualizadas espalhadas pelas nuvens. Com o Delta Sharing, podemos fornecer instantaneamente acesso seguro ao mesmo conjunto de dados ao vivo - não importa a nuvem - mantendo a conformidade e eliminando cópias desnecessárias.

Isso não apenas agiliza nossos fluxos de trabalho internos (passando do desenvolvimento para o teste e para a produção sem recopiar dados), mas também facilita para os clientes agirem mais rapidamente, como atualizar instantaneamente um modelo de tratamento de câncer com os dados mais recentes.

Substituindo Abordagens Antigas

Dado o crescimento exponencial no volume e complexidade dos dados, métodos tradicionais de compartilhamento de dados como servidores SFTP não são mais viáveis para as necessidades modernas. Mover grandes arquivos de um lado para o outro introduz atrasos, adiciona riscos de segurança e requer armazenamento de vários conjuntos de dados redundantes.

Embora as APIs possam ser um recurso, elas são insuficientes para compartilhar os vastos oceanos de dados que organizações como a Kythera gerenciam. Depender de APIs para compartilhar os imensos volumes de dados que gerenciamos seria como tentar encher uma piscina com uma mangueira de jardim - é tecnicamente possível, mas muito lento e ineficiente para nossas necessidades.

Operacionalmente, lidamos com 7 a 10 milhões de transações diariamente, garantindo a conformidade por meio de nossa "Arquitetura de Cofre" personalizada construída no Delta Sharing. Os clientes se beneficiam de atualizações em tempo real por meio do compartilhamento de visualizações sem intervenção manual.

Ao adotar o Delta Sharing, nos afastamos completamente desses métodos legados e ganhamos eficiência operacional, ao mesmo tempo que possibilitamos uma colaboração contínua entre nuvens e organizações.

Retorno sobre o investimento do Delta Sharing

Delta Sharing nos permitiu eliminar métodos de compartilhamento de dados legados, reduzir as necessidades de armazenamento em mais de 80% e economizar mais de $2 milhões nos últimos 2 anos. — Jeff McDonald, CEO, Kythera Labs

O Delta Sharing ajudou a Kythera a reduzir as necessidades de armazenamento de um projetado 24 PB para apenas 3,5 PB. Ao longo de três anos, a demanda por armazenamento caiu de 17 PB/mês em 2024 para 12 PB/mês em 2023 e 6 PB/mês em 2022. Essas reduções somam milhões em economia. Para contextualizar, grandes empresas farmacêuticas podem gastar até $14 milhões por mês apenas em armazenamento.

O armazenamento é apenas parte da história. Os custos de computação para realizar as cópias ETL podem ser ainda mais significativos, variando de igual às economias de armazenamento a potencialmente muitas vezes maior, dependendo dos casos de uso.

AnoRedução nas necessidades de armazenamentoCusto Padrão do AWS S3 (PB/mês)Economia Anual (50% de desconto em armazenamento)
202417 PB/mês$21K$2.1M
202312 PB/mês$21K$1.5M
20226 PB/mês$21K$0.75M
TOTAL R$4.375M

Principais Conclusões

O Delta Sharing transformou nossas capacidades de compartilhamento de dados, reduzindo custos, melhorando a eficiência e possibilitando a colaboração em tempo real entre nuvens e organizações. A combinação de Delta Sharing, Unity Catalog e liquid clustering garante escalabilidade mantendo a conformidade com os padrões de dados de saúde, exemplificando como plataformas de dados modernas e abertas podem revolucionar a análise de dados em saúde.

 

(This blog post has been translated using AI-powered tools) Original Post

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?