Databricks Labs
Os Databricks Labs são projetos criados pela equipe de campo para ajudar você a colocar seus casos de uso em produção mais rapidamente
DQX
Verificação simplificada da qualidade dos dados em escala para cargas de trabalho com PySpark em DataFrames de streaming e padrão.
Kasal
Kasal é uma forma interativa e low-code de criar e implantar agentes de IA na plataforma Databricks.
Lakebridge
Lakebridge é a plataforma de migração da Databricks, criada para oferecer às empresas uma solução completa, ponta a ponta, para modernizar data warehouses legados e sistemas de ETL. O Lakebridge é compatível com uma ampla variedade de plataformas de origem — incluindo Teradata, Oracle, Snowflake, SQL Server, Informatica e outras — e automatiza todas as etapas do processo de migração, da descoberta e avaliação à conversão de código, movimentação de dados e validação, garantindo uma transição rápida e com baixo risco para organizações que buscam impulsionar a inovação e a eficiência em seu ambiente de dados.
Outros projetos
Databricks MCP
Uma coleção de servidores MCP para ajudar agentes de AI a obter dados corporativos do Databricks e automatizar tarefas comuns de desenvolvimento no Databricks.
App de Agente Conversacional
Aplicativo com interface de chat alimentada pelas Databricks Genie Conversation APIs, criado especificamente para executar como um Databricks App.
Aplicativo de chatbot do Assistente de Conhecimento
Exemplo de app de chatbot Databricks Knowledge Assistant.
Aplicação de Registro de Recursos
O app oferece uma interface simples para explorar os recursos existentes no Unity Catalog. Além disso, os usuários podem gerar código para criar especificações de recursos e conjuntos de treinamento, treinar modelos de machine learning e disponibilizar recursos por meio de endpoints de serviço de recursos.
Mosaic
O Mosaic é uma ferramenta que simplifica a implementação de pipelines de dados geoespaciais escaláveis ao reunir bibliotecas geoespaciais de código aberto comuns e o Apache Spark™️. O Mosaic também oferece um conjunto de exemplos e boas práticas para casos de uso geoespaciais comuns. Oferece APIs para expressões ST_ e GRID_, com suporte a sistemas de indexação em grade como H3 e British National Grid.
DLT-META
Esta estrutura facilita a ingestão de dados com Delta Live Tables e metadados. Com o DLT-META, um único engenheiro de dados pode gerenciar milhares de tabelas com facilidade. Vários clientes da Databricks usam DLT-META em produção para processar mais de 1.000 tabelas.
Smolder
O Smolder fornece uma fonte de dados do Apache Spark™ SQL para carregar dados de EHR a partir de formatos de mensagem HL7v2. Além disso, Smolder oferece funções auxiliares que podem ser usadas em um Spark SQL DataFrame para analisar o texto de mensagens HL7 e extrair segmentos, campos e subcampos de uma mensagem.
Geoscan
Estimador do Apache Spark ML para agrupamento espacial baseado em densidade, com base em Índices Espaciais Hexagonais Hierárquicos.
Migrar
Ferramenta para ajudar clientes a migrar artefatos entre espaços de trabalho do Databricks. Isso permite que os clientes exportem configurações e artefatos de código como backup ou como parte de uma migração entre espaços de trabalho diferentes.
Fontes no GitHub
Saiba mais: AWS | Azure
Gerador de dados
Gere dados relevantes rapidamente para seus projetos. O gerador de dados da Databricks pode ser usado para gerar grandes conjuntos de dados simulados/sintéticos para testes, POCs e outros usos
DeltaOMS
Coleta centralizada de logs de transações do Delta para análise de metadados e métricas operacionais no seu Lakehouse.
Integração com Splunk
Complemento para Splunk, um aplicativo que permite aos usuários do Splunk Enterprise e do Splunk Cloud executar consultas e ações, como executar notebooks e jobs, no Databricks.
DiscoverX
DiscoverX automatiza tarefas de administração que exigem inspecionar ou aplicar operações a um grande número de ativos do Lakehouse.
brickster
{brickster} é o conjunto de ferramentas em R para o Databricks; inclui:
- Wrappers para as APIs da Databricks (por exemplo, db_cluster_list, db_volume_read)
- Navegue pelos ativos do workspace pelo painel Connections do RStudio (open_workspace())
- Disponibiliza o databricks-sql-connector via {reticulate} (documentação)
- REPL interativa do Databricks
DBX
Esta ferramenta simplifica o processo de iniciar e implantar tarefas em vários ambientes. Isso também ajuda a empacotar seu projeto e entregá-lo ao seu ambiente Databricks com versionamento. Projetado com foco em CLI, foi criado para ser usado ativamente tanto em pipelines de CI/CD quanto como parte de ferramentas locais para prototipagem rápida.
Tempo
O objetivo deste projeto é oferecer uma API para manipular séries temporais sobre o Apache Spark™. A funcionalidade inclui geração de features usando valores de tempo defasados, estatísticas móveis (média, soma, contagem etc.), AS OF joins e downsampling e interpolação. Isso foi testado em dados históricos em escala de terabytes.
Plugin do PyLint
Este plugin estende o PyLint com verificações para erros e problemas comuns em código Python, especificamente no ambiente do Databricks.
PyTester
PyTester é uma forma poderosa de gerenciar a preparação e a finalização de testes em Python. Esta biblioteca oferece um conjunto de recursos para ajudar você a escrever testes de integração para o Databricks.
Conector Java do Delta Sharing
O conector Java segue o protocolo Delta Sharing para ler tabelas compartilhadas de um Delta Sharing Server. Para reduzir e limitar ainda mais os custos de saída de dados no lado do Fornecedor de Dados, implementamos um cache persistente para remover leituras desnecessárias e, assim, reduzir e limitar os custos de saída no lado do Fornecedor de Dados.
Overwatch
Analise todos os seus jobs e clusters em todos os seus workspaces para identificar rapidamente onde fazer os maiores ajustes para ganhos de desempenho e economia de custos.
UCX
UCX é um kit de ferramentas para habilitar o Unity Catalog (UC) no seu espaço de trabalho do Databricks. UCX oferece comandos e fluxos de trabalho para migrar tabelas e visualizações para o UC. A UCX permite reescrever painéis, jobs e notebooks para usar os ativos de dados migrados no UC. E tem muito mais recursos.
Observe que todos os projetos em https://github.com/databrickslabs Essas contas são fornecidas apenas para sua exploração e não têm suporte formal da Databricks com acordos de nível de serviço (SLAs). Eles são fornecidos NO ESTADO EM QUE SE ENCONTRAM e não oferecemos nenhum tipo de garantia. Quaisquer problemas encontrados ao usar esses projetos podem ser registrados como Issues do GitHub no repositório. Eles serão avaliados conforme a disponibilidade, mas não há SLAs formais para suporte no GitHub.

