A Databricks tem orgulho de ser uma patrocinadora platinum da SIGMOD 2025. A conferência ocorre de 22 a 27 de junho em Berlim, Alemanha.
A cidade anfitriã do SIGMOD 2025 também é lar de um dos quatro centros de P&D da Databricks na Europa, juntamente com Aarhus, Amsterdã e Belgrado.
O escritório de Berlim desempenha um papel central na pesquisa da Databricks, parte da qual é apresentada na SIGMOD, contribuindo para nossos três artigos aceitos. O Engenheiro Principal Martin Grund é o autor principal de dois, enquanto o Líder do Site de Berlim Tim Januschowski, juntamente com vários engenheiros baseados em Berlim, co-autorou o artigo sobre o Unity Catalog. Essas contribuições oferecem um vislumbre dos sistemas centrais e do trabalho estratégico acontecendo em Berlim, onde estamos contratando ativamente em todos os níveis de experiência.
Visite o estande #3 de 22 a 27 de junho para conhecer membros da equipe, aprender sobre nosso trabalho mais recente e a cultura colaborativa única da Databricks, e conversar sobre o futuro dos sistemas de dados!
As empresas desejam aplicar políticas de controle de acesso refinado para gerenciar requisitos de governança de dados cada vez mais complexos. Essas políticas ricas devem ser aplicadas uniformemente em todas as suas cargas de trabalho. Neste artigo, apresentamos o Databricks Lakeguard, nossa implementação de um sistema de governança unificado que impõe políticas de acesso a dados refinados, filtros de nível de linha e máscaras de coluna em todas as cargas de trabalho de dados e IA de uma empresa. Lakeguard é construído em cima de dois componentes principais: Primeiro, ele usa o Spark Connect, um protocolo de execução semelhante ao JDBC, para separar o aplicativo cliente do servidor e garantir compatibilidade de versão. Em segundo lugar, ele aproveita o isolamento de contêiner no gerenciador de cluster do Databricks para isolar com segurança o código do usuário do motor central do Spark. Com o Lakeguard, as permissões de um usuário são aplicadas para qualquer carga de trabalho e em qualquer linguagem suportada, SQL, Python, Scala e R em computação multiusuário. Este trabalho supera soluções de governança fragmentadas, onde o controle de acesso refinado só poderia ser aplicado para cargas de trabalho SQL, enquanto o processamento de big data com frameworks como o Apache Spark dependia de governança grosseira no nível do arquivo com acesso a dados vinculado ao cluster.
As empresas estão adotando cada vez mais a arquitetura Lakehouse para gerenciar seus ativos de dados devido à sua flexibilidade, baixo custo e alto desempenho. Embora o catálogo desempenhe um papel central nesta arquitetura, ele permanece pouco explorado, e os catálogos Lakehouse atuais apresentam limitações chave, incluindo governança inconsistente, interoperabilidade restrita e falta de suporte para descoberta de dados. Além disso, há uma demanda crescente para governar uma gama mais ampla de ativos além de dados tabulares, como dados não estruturados e modelos de IA, que os catálogos existentes não estão equipados para lidar. Para enfrentar esses desafios, apresentamos o Unity Catalog (UC), um catálogo Lakehouse aberto e universal desenvolvido na Databricks que suporta uma ampla variedade de ativos e cargas de trabalho, fornece governança consistente e se integra eficientemente com sistemas externos, tudo com garantias fortes de desempenho. Descrevemos os principais desafios de design e como a arquitetura da UC os atende, e compartilhamos insights de uso em milhares de implantações de clientes que validam suas escolhas de design. As APIs principais do UC e as implementações de servidor e cliente estão disponíveis como código aberto desde junho de 2024.
Para muitos usuários do Apache Spark, gerenciar atualizações de versão do Spark é uma interrupção significativa que normalmente envolve uma migração de código demorada. Isso ocorre principalmente porque no Spark, não há uma separação clara entre o código do aplicativo e o código do motor, tornando difícil gerenciá-los independentemente (conflitos de dependência, uso de APIs internas). Na oferta de Spark Serverless da Databricks, introduzimos o Spark sem versão onde aproveitamos o Spark Connect para desacoplar totalmente o aplicativo cliente do motor Spark, o que nos permite atualizar as versões do motor Spark sem problemas. Neste artigo, mostramos como nossa infraestrutura construída em torno do Spark Connect atualiza automaticamente e remedia falhas em cargas de trabalho automatizadas do Spark sem qualquer interrupção. Usando o Spark sem versão, as cargas de trabalho Spark dos usuários da Databricks são executadas indefinidamente e sempre na versão mais recente, com base em uma experiência totalmente gerenciada, mantendo quase toda a programabilidade do Apache Spark.
Estamos contratando! Confira nossas vagas abertas e junte-se às nossas crescentes equipes de engenharia ao redor do mundo.
(This blog post has been translated using AI-powered tools) Original Post