Ir para o conteúdo principal

Laboratórios Databricks

Databricks Labs são projetos criados pela equipe de campo para ajudar os clientes a colocar seus casos de uso em produção mais rapidamente!

UCX

DQX

Simplified Data Quality checking at Scale for PySpark Workloads on streaming and standard DataFrames.

GitHub Sources →

Documentation →

UCX

UCX

UCX is a toolkit for enabling Unity Catalog (UC) in your Databricks workspace. UCX provides commands and workflows for migrate tables and views to UC. UCX allows to rewrite dashboards, jobs and notebooks to use the migrated data assets in UC. And there are many more features.

GitHub Sources →

Documentation →

Blog →

logotipo do mosaico

Mosaico

O Mosaic é uma ferramenta que simplifica a implementação de pipelines de dados geoespaciais escaláveis ao unir bibliotecas geoespaciais comuns de código aberto e o Apache Spark™️. O Mosaic também fornece um conjunto de exemplos e práticas recomendadas para casos de uso geoespacial comuns. Ele fornece APIs para expressões ST_ e expressões GRID_, suportando sistemas de índice de grade, como H3 e British National Grid.

Fontes do GitHub →

Documentação →

Blogue →

Outros projetos

Overwatch

Analise todo o seu Job e cluster em todo o seu Workspace para identificar rapidamente onde você pode fazer os maiores ajustes para obter ganhos de desempenho e economia de custos.

Saiba mais

Integração do Splunk

Complemento para Splunk, um aplicativo que permite que os usuários do Splunk Enterprise e do Splunk Cloud executem consultas e ações, como executar Notebook e Job, no Databricks.

Fontes do Github →
Saiba mais →

sem chama

O Smolder fornece uma fonte de dados Apache Spark™ SQL para carregar dados EHR de formatos de mensagem HL7v2 . Além disso, o Smolder fornece funções auxiliares que podem ser usadas em um Spark SQL DataFrame para analisar o texto da mensagem HL7 e extrair segmentos, campos e subcampos de uma mensagem.

Fontes do Github →
Saiba mais →

Geoscan

Apache Spark ML Estimator para cluster espacial baseado em densidade baseado em índices espaciais hierárquicos hexagonais.

Fontes do Github →
Saiba mais →

Migrar

Ferramenta para ajudar os clientes a migrar artefatos entre o Databricks Workspace. Isso permite que os clientes exportem configurações e artefatos de código como um backup ou como parte de uma migração entre um Workspacediferente.

Fontes do Github
Saiba mais: AWS | Azure

Gerador de dados

Gere dados relevantes rapidamente para seus projetos. O gerador de dados Databricks pode ser usado para gerar grandes conjuntos de dados simulados/sintéticos para teste, POCs e outros usos

Fontes do Github →
Saiba mais →

DeltaOMS

Coleta centralizada Logs de transação Delta para metadados e análise de métricas operacionais em seu Lakehouse.

Fontes do Github →
Saiba mais →

DLT-META

Essa estrutura facilita a ingestão de dados usando metadados e delta live table . Com o DLT-META, um único engenheiro de dados pode gerenciar facilmente milhares de tabelas. Vários clientes Databricks têm DLT-META em produção para processar mais de 1.000 tabelas.

Fontes do Github →
Saiba mais →

DLT-META

Essa estrutura facilita a ingestão de dados usando metadados e delta live table . Com o DLT-META, um único engenheiro de dados pode gerenciar facilmente milhares de tabelas. Vários clientes Databricks têm DLT-META em produção para processar mais de 1.000 tabelas.

Fontes do Github →
Saiba mais →

DLT-META

Essa estrutura facilita a ingestão de dados usando metadados e delta live table . Com o DLT-META, um único engenheiro de dados pode gerenciar facilmente milhares de tabelas. Vários clientes Databricks têm DLT-META em produção para processar mais de 1.000 tabelas.

Fontes do Github →
Saiba mais →

DBX

This tool simplifies jobs launch and deployment process across multiple environments. It also helps to package your project and deliver it to your Databricks environment in a versioned fashion. Designed in a CLI-first manner, it is built to be actively used both inside CI/CD pipelines and as a part of local tooling for fast prototyping.

Github Sources →
Documentation →
Blog →

DLT-META

Essa estrutura facilita a ingestão de dados usando metadados e delta live table . Com o DLT-META, um único engenheiro de dados pode gerenciar facilmente milhares de tabelas. Vários clientes Databricks têm DLT-META em produção para processar mais de 1.000 tabelas.

Fontes do Github →
Saiba mais →

DLT-META

Essa estrutura facilita a ingestão de dados usando metadados e delta live table . Com o DLT-META, um único engenheiro de dados pode gerenciar facilmente milhares de tabelas. Vários clientes Databricks têm DLT-META em produção para processar mais de 1.000 tabelas.

Fontes do Github →
Saiba mais →

DLT-META

Essa estrutura facilita a ingestão de dados usando metadados e delta live table . Com o DLT-META, um único engenheiro de dados pode gerenciar facilmente milhares de tabelas. Vários clientes Databricks têm DLT-META em produção para processar mais de 1.000 tabelas.

Fontes do Github →
Saiba mais →

DLT-META

Essa estrutura facilita a ingestão de dados usando metadados e delta live table . Com o DLT-META, um único engenheiro de dados pode gerenciar facilmente milhares de tabelas. Vários clientes Databricks têm DLT-META em produção para processar mais de 1.000 tabelas.

Fontes do Github →
Saiba mais →

Observe que todos os projetos no https://github.com/databrickslabs A conta é fornecida apenas para sua exploração e não é formalmente suportada pelo Databricks com contratos de nível de serviço (SLAs). Eles são fornecidos COMO ESTÃO e não oferecemos garantias de qualquer tipo. Por favor, não envie um tíquete de suporte relacionado a quaisquer problemas decorrentes do uso desses projetos. Quaisquer problemas descobertos por meio do uso deste projeto devem ser arquivados como Problemas do GitHub no Repo. Eles serão revisados conforme o tempo permitir, mas não há SLAs formais para suporte.