Databricks Labs

I Databricks Labs sono progetti creati sul campo per aiutare i clienti a portare i loro casi d'uso in produzione più velocemente!

DQX

Controllo semplificato della qualità dei dati su larga scala per carichi di lavoro PySpark sui DataFrame in streaming e standard.

Sorgenti GitHub →

Documentazione →

Kasal

Kasal è un modo interattivo e low‑code per creare e distribuire agenti AI sulla piattaforma Databricks.

Sorgenti GitHub →

Documentazione →

Lakebridge

Lakebridge è la piattaforma di migrazione di Databricks, progettata per offrire alle aziende una soluzione completa, dall'inizio alla fine, per modernizzare i data warehouse di vecchia generazione e i sistemi ETL. Lakebridge supporta un'ampia gamma di piattaforme di origine —tra cui Teradata, Oracle, Snowflake, SQL Server, Informatica e altre— e automatizza ogni fase del processo di migrazione, dall’analisi e valutazione iniziali alla conversione del codice, al trasferimento dei dati e alla validazione, garantendo una transizione rapida e a basso rischio per le organizzazioni che vogliono sbloccare innovazione ed efficienza nel proprio patrimonio dati.

Sorgenti GitHub →

Documentazione →

Blog →

Altri progetti

Databricks MCP

Una raccolta di server MCP per aiutare gli agenti AI a recuperare dati aziendali da Databricks e ad automatizzare le azioni di sviluppo più comuni su Databricks.

Sorgenti GitHub →

App per agente conversazionale

Applicazione con interfaccia chat basata sulle Databricks Genie Conversation APIs, pensata appositamente per essere eseguita come Databricks App.

Sorgenti GitHub →

Applicazione chatbot di assistenza alla conoscenza

Esempio di applicazione chatbot di Databricks Knowledge Assistant.

Sorgenti GitHub →

Applicazione del Registro delle feature

L'app offre un'interfaccia intuitiva per esplorare le funzionalità esistenti in Unity Catalog. Inoltre, gli utenti possono generare codice per creare le specifiche delle feature e i set di addestramento, addestrare modelli di machine learning ed esporre le feature tramite endpoint di serving.

Sorgenti GitHub →

Mosaic

Mosaic è uno strumento che semplifica l’implementazione di pipeline di dati geospaziali scalabili, integrando le comuni librerie geospaziali open source e Apache Spark™️. Mosaic offre anche una raccolta di esempi e buone pratiche per i casi d'uso geospaziali più comuni. Fornisce API per le espressioni ST_ e GRID_, e supporta sistemi di indicizzazione a griglia come H3 e British National Grid.

Sorgenti GitHub →

Documentazione →

Blog →

DLT-META

Questo framework semplifica l’acquisizione dei dati utilizzando Delta Live Tables e i metadati. Con DLT-META, un solo ingegnere dei dati può gestire facilmente migliaia di tabelle. Diversi clienti Databricks utilizzano DLT-META in produzione per elaborare oltre 1000 tabelle.

Codice su GitHub →
Scopri di più →

Smolder

Smolder fornisce una sorgente di dati Apache Spark™ SQL per caricare dati EHR da formati di messaggi HL7v2. Inoltre, Smolder offre funzioni di aiuto che possono essere utilizzate su un DataFrame SQL Spark per analizzare testi di messaggi HL7 e per estrarre segmenti, campi e sottocampi da un messaggio.

Sorgenti su Github →
Scopri di più →

Geoscan

Apache Spark ML Estimator per clustering spaziale basato sulla densità, basato su Hexagonal Hierarchical Spatial Indices.

Sorgenti su GitHub →
Scopri di più →

Migrate

Strumento per aiutare i clienti a migrare artefatti fra spazi di lavoro Databricks. Consente ai clienti di esportare configurazioni e artefatti di codice come backup o nell'ambito di una migrazione fra diversi spazi di lavoro.

Sorgenti GitHub
Scopri di più: AWS | Azure

Data Generator

Genera velocemente dati rilevanti per i tuoi progetti. Il generatore di dati di Databricks può essere usato per generare grandi set di dati simulati/sintetici per test, POC e altri usi

Codice su GitHub →
Scopri di più →

DeltaOMS

Raccolta centralizzata di registri di transazioni Delta per analisi di metadati e metriche operative sul lakehouse.

Codice su GitHub →
Scopri di più →

Splunk Integration

Add-on per Splunk, un'app che consente agli utenti di Splunk Enterprise e Splunk Cloud di eseguire query e azioni, ad esempio eseguire notebook e lavori, in Databricks.

Codice sorgente su GitHub →
Scopri di più →

DiscoverX

DiscoverX automatizza le attività amministrative che richiedono di esaminare o eseguire operazioni su un gran numero di risorse del Lakehouse.

Sorgenti GitHub →

brickster

{brickster} è il toolkit R per Databricks e include:

Librerie per le API di Databricks (ad es. db_cluster_list, db_volume_read)
Esplora le risorse dello spazio di lavoro dal Pannello Connessioni di RStudio (open_workspace())
Rende disponibile il databricks-sql-connector tramite {reticulate} (documentazione)
REPL interattiva di Databricks

Sorgenti GitHub →
Documentazione →
Blog →

DBX

Questo strumento semplifica il lancio di lavori e il processo di implementazione su molteplici ambienti. Aiuta anche a "confezionare" il progetto e fornirlo all'ambiente Databricks in una versione specifica. Progettato in primis per interfacce a riga di comando (CLI), è concepito per essere utilizzato attivamente sia in pipeline CI/CD, sia come parte della strumentazione locale per prototipazione veloce.

Codice su GitHub →
Documentazione →
Blog →

Tempo

Lo scopo di questo progetto è fornire un'API per manipolare serie temporali su Apache Spark. Le funzionalità comprendono featurizzazione con valori temporali ritardati, statistiche continue (media, media aritmetica, somma, conteggio ecc.), giunzioni AS OF e sottocampionamento e interpolazione. Questo sistema è stato testato su svariati TB di dati storici.

Codice su GitHub →
Documentazione →
Webinar →

Plugin PyLint

Questo plugin estende PyLint con controlli per errori e problemi comuni nel codice Python, in particolare nell'ambiente Databricks.

Codice su GitHub →
Documentazione →

PyTester

PyTester è un modo potente per gestire la preparazione e la pulizia finale dei test in Python. Questa libreria fornisce un insieme di fixture per aiutarti a scrivere test di integrazione per Databricks.

Sorgenti Github →
Documentazione →

Connettore Java per Delta Sharing

Il connettore Java segue il protocollo Delta Sharing per leggere tabelle condivise da un Delta Sharing Server. Per ridurre ulteriormente e limitare i costi di traffico in uscita sul lato del fornitore di dati, abbiamo implementato una cache persistente per ridurre e limitare i costi di traffico in uscita sul lato del fornitore di dati eliminando le letture non necessarie.

Sorgenti GitHub →

Documentazione →

Overwatch

Analizza tutti i lavori e i cluster su tutti gli spazi di lavoro per individuare velocemente dove si possono effettuare gli interventi più incisivi per migliorare le prestazioni e ridurre i costi.

Maggiori informazioni →

UCX

UCX è un set di strumenti per attivare Unity Catalog (UC) nella tua area di lavoro Databricks. UCX fornisce comandi e flussi di lavoro per migrare tabelle e viste verso UC. UCX consente di riscrivere dashboard, job e notebook per usare le risorse dati migrate in UC. E ci sono molte altre funzionalità.

Sorgenti GitHub →

Documentazione →

Blog →

Tutti i progetti nell'account http://github.com/databrickslabs sono forniti solo a scopo esplorativo e non sono supportati formalmente da Databricks con Service Level Agreement (SLA). Vengono forniti come tali (AS-IS) e senza alcun tipo di garanzia. Qualsiasi problema derivante dall'uso di questo progetto deve essere registrato come GitHub Issue su Repo. Verranno analizzati quando il tempo lo consentirà, ma non esistono contratti di servizio formali per l'assistenza.