Ir para o conteúdo principal

Como a Recuperação de Desastres gerenciada pelo Databricks ajuda a Capital One a alcançar a resiliência do Lakehouse

Powering Mission Critical Workloads on the Databricks Lakehouse

Published: October 30, 2025

Empresa3 min de leitura

Summary

  • A Databricks tem feito uma parceria com a Capital One para desenvolver em conjunto uma solução gerenciada de Recuperação de Desastres para o lakehouse
  • Durante a interrupção de um fornecedor, esta solução provou ser um sucesso
  • A Capital One conseguiu fazer o failover rapidamente para uma região secundária e retomar a analítica interativa em sua plataforma Databricks

Há mais de um ano, o Databricks tem uma parceria com a Capital One para desenvolver uma oferta de Recuperação de Desastres gerenciada para o lakehouse. Durante uma interrupção de um fornecedor, essa colaboração valeu a pena quando a Capital One conseguiu fazer o failover rapidamente da analítica interativa em sua plataforma Databricks para uma região secundária.

As interrupções de tecnología são uma questão de “quando”, não de “se”. A parceria entre a Capital One e o Databricks mostra que, com uma plataforma de dados sólida, orientada por uma estratégia robusta de recuperação de desastres, até mesmo interrupções em grande escala podem ser superadas com o mínimo de interrupção para os negócios.

A parceria com a Databricks em resiliência multirregional ajuda a manter as cargas de trabalho analíticas essenciais funcionando durante eventos como uma interrupção regional. —Shehzad Mevawalla, vice-presidente executivo de tecnología de dados corporativos, Capital One

Recuperação de desastres para o Open Data Lakehouse

As ferramentas de backup tradicionais protegem apenas os dados. Os data warehouses tradicionais podem proteger apenas os dados em seu próprio formato proprietário.

Em contrapartida, o moderno data lakehouse aberto é muito mais. Ele inclui:

  • Os dados são armazenados em formatos de dados abertos, em um armazenamento que os clientes controlam.
  • Um catálogo de dados aberto, que serve como o centro de governança
  • Ativos definidos pelo cliente, como notebooks e pipelines, para potencialmente milhares de usuários

É fundamental que todos esses componentes sejam resilientes a falhas e possam retomar as operações de forma transparente em caso de falhas regionais.

Quando se trata de recuperação de desastres, isso apresenta um novo conjunto de desafios, incluindo a capacidade de replicar todos os elementos de missão crítica do lakehouse para uma região secundária na cloud com baixa latência e em uma ampla variedade de tipos de ativo.

Recuperação de Desastres gerenciada pelo Databricks: Solução de DR para Lakehouse

Em colaboração com a Capital One, o Databricks desenvolveu uma solução de Recuperação de Desastres gerenciada para ajudar a enfrentar esses desafios. Inclui:

  • Replicação gerenciada - com compute em segundo plano de alto desempenho, os ativos críticos do workspace podem ser rapidamente replicados para sua região secundária, usando os recursos prontos para uso do próprio Databricks.
  • Failover especificado pelo cliente - a solução gerenciada do Databricks oferece aos clientes a flexibilidade de fazer o failover para a região secundária no momento que escolherem. Isso dá aos clientes controle total sobre o processo de failover e failback, algo essencial, pois o failover geralmente exige coordenação entre equipes, sistemas e ferramentas.
  • Secundário somente leitura - o Databricks pode garantir facilmente que a região de failover secundária seja somente leitura até o momento em que for promovida a primária. Isso garante que todos os writes sejam direcionados para a região primária a qualquer momento e impede writes não intencionais na região secundária.

Aprendizados e próximos os passos

Esta colaboração bem-sucedida destaca alguns ingredientes key para cargas de trabalho de missão crítica:

  • Compromisso contínuo com a resiliência - O compromisso da Capital One com exercícios regulares de failover e failback garantiu que o failover fizesse parte da memória muscular da organização quando ocorreu uma interrupção.
  • Deixe o trabalho pesado para uma solução gerenciada - A Capital One consegue aproveitar a solução de DR gerenciada da Databricks para realizar a replicação em escala, para que suas equipes possam se concentrar em trabalhos de maior impacto.

A Capital One continua inovando quando se trata de resiliência na cloud, expandindo sua cobertura de Recuperação de Desastres e trabalhando para reduzir ainda mais seu Recovery Time Objective.

O Databricks está planejando mais melhorias para a solução de Recuperação de Desastres Gerenciada, com base nas lições aprendidas em outages anteriores. Fique ligado para mais detalhes.

 

(This blog post has been translated using AI-powered tools) Original Post

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?