Databricks doa Pipelines Declarativos para o projeto de código aberto Apache Spark™

11 de junho de 2025

Nova oferta oferece acesso gratuito à Plataforma de Inteligência de Dados Databricks para ajudar todos, de estudantes a aspirantes a profissionais, a desenvolver habilidades essenciais em dados e IA.

Data + AI Summit, São Francisco, CA – 11 de junho de 2025 – A Databricks, empresa de dados e IA, anunciou hoje que está disponibilizando o código aberto do framework ETL declarativo principal da empresa, o Apache Spark™ Declarative Pipelines. Essa iniciativa acontece após o Apache Spark atingir dois bilhões de downloads e o recente lançamento do Apache Spark 4.0. Esses lançamentos se baseiam no compromisso de longa data da Databricks com ecossistemas abertos, garantindo que os usuários tenham a flexibilidade e o controle necessários sem dependência de fornecedores. O Spark Declarative Pipelines aborda um dos maiores desafios da engenharia de dados, facilitando a construção e a operação de pipelines de dados confiáveis e escaláveis de ponta a ponta.

O Spark Declarative Pipelines oferece uma maneira mais fácil de definir e executar pipelines de dados para cargas de trabalho de ETL em lote e streaming em qualquer fonte de dados compatível com o Apache Spark, incluindo armazenamento em nuvem, barramentos de mensagens, feeds de dados alterados e sistemas externos. Este framework declarativo testado e comprovado para a construção de pipelines de dados ajuda engenheiros a lidar com problemas comuns, como autoria complexa de pipelines, sobrecarga de operações manuais e lote/streaming em silos.

O Spark Declarative Pipelines é baseado no framework ETL declarativo principal da Databricks, utilizado por milhares de clientes. Com a capacidade comprovada de lidar com cargas de trabalho complexas de engenharia de dados e streaming de baixa latência, o Spark Declarative Pipelines estabelece a base para a próxima geração de processamento e governança de dados. Com o Spark Declarative Pipelines, mais membros da comunidade podem começar a reduzir o tempo e os custos de engenharia e oferecer suporte confiável a novos sistemas de agentes de IA e outras cargas de trabalho em produção.

“Nosso compromisso com o código aberto é inabalável. Com origens na academia e na comunidade de código aberto, a Databricks foi fundada em 2013 pelos criadores originais da arquitetura lakehouse e de projetos de código aberto, incluindo Apache Spark, Delta Lake, MLflow e Unity Catalog”, disse Matei Zaharia, cofundador e CTO da Databricks. “Trabalhamos em estreita colaboração com a comunidade para ajudar a eliminar o atrito em torno dos formatos de dados que mantinham as informações isoladas. O Spark Declarative Pipelines agora oferece às empresas uma maneira aberta de construir pipelines de alta qualidade”.

Os principais benefícios do Spark Declarative Pipelines incluem:

Simplificação da criação de pipelines: Engenheiros e analistas de dados podem declarar pipelines robustos rapidamente com codificação mínima, concentrando-se em fornecer insights críticos para os negócios.
Operabilidade aprimorada por design: O Spark Declarative Pipelines ajuda a detectar problemas mais cedo no desenvolvimento por meio de definições claras de pipeline que são validadas integralmente antes da execução, reduzindo o risco de falhas posteriores e facilitando a solução de problemas e a manutenção dos pipelines.
Lote e streaming unificados: As equipes de dados podem atender com flexibilidade às necessidades de processamento periódico e em tempo real por meio de uma única API para definir e gerenciar pipelines de dados em lote e streaming, simplificando o desenvolvimento e a manutenção.

“Pipelines declarativos escondem a complexidade da engenharia de dados moderna sob um modelo de programação simples e intuitivo. Como gerente de engenharia, adoro o fato de meus engenheiros poderem se concentrar no que é mais importante para os negócios. É emocionante ver esse nível de inovação agora sendo disponibilizado em código aberto, tornando-o acessível a ainda mais equipes.” — Jian (Miracle) Zhou, Gerente Sênior de Engenharia, Navy Federal Credit Union

“A 84,51°, estamos sempre buscando maneiras de tornar nossos pipelines de dados mais fáceis de construir e manter, especialmente à medida que avançamos para ferramentas mais abertas e flexíveis. A abordagem declarativa tem sido uma grande ajuda na redução da quantidade de código que precisamos gerenciar e facilitou o suporte a lotes e streaming sem a necessidade de unir sistemas separados. A disponibilização em código aberto dessa estrutura como Pipelines Declarativos do Spark é um grande passo para a comunidade Spark.” — Brad Turnbaugh, Engenheiro de Dados Sênior, 84,51°

Sobre a Databricks
A Databricks é a empresa de dados e IA. Mais de 15.000 organizações em todo o mundo — incluindo Block, Comcast, Condé Nast, Rivian, Shell e mais de 60% da Fortune 500 — contam com a Databricks Data Intelligence Platform para assumir o controle de seus dados e colocá-los para trabalhar com IA. A Databricks tem sede em São Francisco, com escritórios ao redor do mundo, e foi fundada pelos criadores originais do Lakehouse, Apache Spark™, Delta Lake e MLflow. Para saber mais, siga a Databricks no LinkedIn, X e Facebook.

Fale com nossa equipe de imprensa

Consultas de Imprensa:press@databricks.com

Kit de Imprensa

Explore nosso kit de imprensa para notícias da empresa, informações, logotipos, fotos e muito mais.

Compartilhe este artigo