Com as empresas forçadas a se adaptar a uma força de trabalho remota e distribuída no último ano, a adoção da nuvem acelerou a um ritmo sem precedentes em +14%, resultando em 2% ou US$ 13 bilhões acima das previsões pré-pandemia para 2020, com possivelmente mais de US$ 600 bilhões em migrações on-premise para a nuvem nos próximos anos. Essa mudança para a cloud dá uma importância crescente a uma nova geração de plataformas de dados e analytics para impulsionar a inovação e concretizar as estratégias de transformação digital corporativa. No entanto, muitas organizações ainda enfrentam dificuldades com a complexidade, a infraestrutura não escalável e os altos custos de manutenção de seus ambientes legados do Hadoop e, por fim, sacrificam o valor de seus dados e, consequentemente, arriscam sua vantagem competitiva. Para enfrentar esse desafio e desbloquear mais oportunidades (às vezes ocultas) em seus dados, as organizações estão recorrendo a plataformas de dados e analítica abertas, simples e colaborativas baseadas na cloud, como a Databricks Lakehouse Platform. Neste blog, você aprenderá sobre os desafios que levam as organizações a explorar soluções modernas baseadas na cloud e o papel que a arquitetura lakehouse desempenha em desencadear a próxima onda de inovação data-driven.
O sistema de arquivos distribuído (HDFS) do Hadoop foi uma tecnologia revolucionária quando lançado e continuará sendo um ícone na história dos dados. Devido ao seu surgimento, as organizações não estavam mais limitadas aos bancos de dados relacionais, o que deu origem ao armazenamento moderno de big data e, eventualmente, aos data lakes na nuvem. Apesar de toda a sua glória e alarde até 2015, o Hadoop teve dificuldades para suportar o potencial em evolução de todos os tipos de dados, especialmente em escala empresarial. Em última análise, à medida que o cenário de dados e as necessidades de negócios associadas evoluíram, o Hadoop teve dificuldades para continuar a cumprir suas promessas. Como resultado, as empresas começaram a explorar alternativas baseadas na cloud, e a taxa de migração do Hadoop para a cloud só aumenta.
As equipes migram do Hadoop por vários motivos; geralmente é uma combinação de fatores de “pressão” e “atração”. Limitações dos sistemas Hadoop existentes e os altos custos de licenciamento e administração estão levando as equipes a explorar alternativas. Eles também estão sendo atraídos pelas novas possibilidades oferecidas pelas arquiteturas modernas de dados em nuvem. Embora os requisitos de arquitetura variem de acordo com a organização, vemos vários fatores em comum que levam os clientes a perceber que é hora de começar a dizer adeus. Isso inclui:

Além de toda a gama de desafios acima, há uma preocupação genuína sobre a viabilidade a longo prazo do Hadoop. Em 2019, o mundo viu um desmantelamento massivo na esfera do Hadoop. O Google, cujo seminal artigo sobre o MapReduce de 2004 fundamentou a criação do Apache Hadoop, parou de usar o MapReduce por completo, conforme tuitado por Urs Hölzle, SVP de Infraestrutura Técnica do Google. Houve também algumas fusões e aquisições de grande destaque no mundo do Hadoop. Além disso, em 2020, um dos principais provedores de Hadoop deixou de centrar seu conjunto de produtos no Hadoop, já que o Hadoop agora é considerado “mais uma filosofia do que uma tecnología”. Por fim, em 2021, a Apache Software Foundation anunciou a descontinuação de dez projetos do ecossistema Hadoop. Esse conjunto crescente de preocupações, juntamente com a necessidade acelerada de digitalização, incentivou muitas empresas a reavaliar sua relação com o Hadoop.
Uma arquitetura lakehouse é a arquitetura de dados ideal para organizações data-driven. Ela combina as melhores qualidades de data warehouses e data lakes para fornecer uma única solução de alto desempenho para todas as cargas de trabalho de dados. A arquitetura Lakehouse oferece suporte a uma variedade de casos de uso, como análise de dados de transmissão para BI, ciência de dados e IA. Por que os clientes amam a plataforma Databricks Lakehouse?
Uma arquitetura de lakehouse pode oferecer ganhos significativos em comparação com os ambientes Hadoop legados, o que “puxa” as empresas para a adoção da cloud. Isso também inclui clientes que tentaram usar o Hadoop na cloud, mas não estão obtendo os resultados esperados ou desejados. Como R. Tyler Croy, Diretor de Engenharia da Scribd, explica “A Databricks alegou uma otimização de 30% a 50% para a maioria das cargas de trabalho tradicionais do Apache Spark™. Por curiosidade, refatorei meu modelo de custos para levar em conta o preço do Databricks e as possíveis otimizações de tarefas do Spark. Depois de ajustar os números, descobri que, com uma taxa de otimização de 17%, o Databricks reduziria tanto o custo da nossa infraestrutura da Amazon Web Services (AWS) que pagaria o custo da própria plataforma Databricks. Após nossa avaliação inicial, eu já estava convencido dos recursos e das melhorias na velocidade do desenvolvedor que o Databricks ofereceria. Quando analisei os números no meu modelo, descobri que não podia me dar ao luxo de não adotar o Databricks!”
O Scribd não está sozinho; outros clientes que migraram do Hadoop para a Databricks Lakehouse Platform incluem:
O Hadoop nunca foi projetado para ser executado em ambientes de cloud. Embora os serviços Hadoop baseados em nuvem apresentem melhorias incrementais em comparação com seus equivalentes on-premises, ambos ainda ficam defasados em comparação com a arquitetura lakehouse. Ambas as instâncias do Hadoop apresentam baixo desempenho, baixa produtividade, altos custos e sua incapacidade de lidar com casos de uso de dados mais sofisticados em escala.
As decisões de migração para a cloud são decisões de negócios. Elas forçam as empresas a analisar profundamente a realidade da entrega de seus sistemas atuais e a avaliar o que precisam alcançar para atingir metas de curto e longo prazo. À medida que o investimento em IA continua a ganhar força, os líderes de dados, analytics e tecnología precisam desempenhar um papel fundamental ao pensar além da arquitetura Hadoop existente com a pergunta “isso nos levará aonde precisamos ir?”
Com a clareza dos objetivos, surgem detalhes técnicos críticos, como o mapeamento de tecnologia, a avaliação da utilização de recursos de cloud e do custo-desempenho, e a estruturação de um projeto de migração que minimize erros e riscos. Mas, o mais importante, você precisa ter a convicção data-driven de que é hora de reavaliar seu relacionamento com o Hadoop. Saiba mais sobre como a migração do Hadoop pode acelerar os resultados de negócios em seus casos de uso de dados.
1. Fonte: Gartner Market Databook, Goldman Sachs Global Investment Research
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Líder de dados
October 16, 2025/8 min de leitura
Líder de dados
November 6, 2025/8 min de leitura


