Databricks Labs
I Databricks Labs sono progetti creati sul campo per aiutare i clienti a portare i loro casi d'uso in produzione più velocemente!
DQX
Controllo semplificato della qualità dei dati su larga scala per carichi di lavoro PySpark sui DataFrame in streaming e standard.
Kasal
Kasal è un modo interattivo e low‑code per creare e distribuire agenti AI sulla piattaforma Databricks.
Lakebridge
Lakebridge è la piattaforma di migrazione di Databricks, progettata per offrire alle aziende una soluzione completa, dall'inizio alla fine, per modernizzare i data warehouse di vecchia generazione e i sistemi ETL. Lakebridge supporta un'ampia gamma di piattaforme di origine —tra cui Teradata, Oracle, Snowflake, SQL Server, Informatica e altre— e automatizza ogni fase del processo di migrazione, dall’analisi e valutazione iniziali alla conversione del codice, al trasferimento dei dati e alla validazione, garantendo una transizione rapida e a basso rischio per le organizzazioni che vogliono sbloccare innovazione ed efficienza nel proprio patrimonio dati.
Altri progetti
Databricks MCP
Una raccolta di server MCP per aiutare gli agenti AI a recuperare dati aziendali da Databricks e ad automatizzare le azioni di sviluppo più comuni su Databricks.
App per agente conversazionale
Applicazione con interfaccia chat basata sulle Databricks Genie Conversation APIs, pensata appositamente per essere eseguita come Databricks App.
Applicazione chatbot di assistenza alla conoscenza
Esempio di applicazione chatbot di Databricks Knowledge Assistant.
Applicazione del Registro delle feature
L'app offre un'interfaccia intuitiva per esplorare le funzionalità esistenti in Unity Catalog. Inoltre, gli utenti possono generare codice per creare le specifiche delle feature e i set di addestramento, addestrare modelli di machine learning ed esporre le feature tramite endpoint di serving.
Mosaic
Mosaic è uno strumento che semplifica l’implementazione di pipeline di dati geospaziali scalabili, integrando le comuni librerie geospaziali open source e Apache Spark™️. Mosaic offre anche una raccolta di esempi e buone pratiche per i casi d'uso geospaziali più comuni. Fornisce API per le espressioni ST_ e GRID_, e supporta sistemi di indicizzazione a griglia come H3 e British National Grid.
DLT-META
Questo framework semplifica l’acquisizione dei dati utilizzando Delta Live Tables e i metadati. Con DLT-META, un solo ingegnere dei dati può gestire facilmente migliaia di tabelle. Diversi clienti Databricks utilizzano DLT-META in produzione per elaborare oltre 1000 tabelle.
Smolder
Smolder fornisce una sorgente di dati Apache Spark™ SQL per caricare dati EHR da formati di messaggi HL7v2. Inoltre, Smolder offre funzioni di aiuto che possono essere utilizzate su un DataFrame SQL Spark per analizzare testi di messaggi HL7 e per estrarre segmenti, campi e sottocampi da un messaggio.
Geoscan
Apache Spark ML Estimator per clustering spaziale basato sulla densità, basato su Hexagonal Hierarchical Spatial Indices.
Migrate
Strumento per aiutare i clienti a migrare artefatti fra spazi di lavoro Databricks. Consente ai clienti di esportare configurazioni e artefatti di codice come backup o nell'ambito di una migrazione fra diversi spazi di lavoro.
Sorgenti GitHub
Scopri di più: AWS | Azure
Data Generator
Genera velocemente dati rilevanti per i tuoi progetti. Il generatore di dati di Databricks può essere usato per generare grandi set di dati simulati/sintetici per test, POC e altri usi
DeltaOMS
Raccolta centralizzata di registri di transazioni Delta per analisi di metadati e metriche operative sul lakehouse.
Splunk Integration
Add-on per Splunk, un'app che consente agli utenti di Splunk Enterprise e Splunk Cloud di eseguire query e azioni, ad esempio eseguire notebook e lavori, in Databricks.
DiscoverX
DiscoverX automatizza le attività amministrative che richiedono di esaminare o eseguire operazioni su un gran numero di risorse del Lakehouse.
brickster
{brickster} è il toolkit R per Databricks e include:
- Librerie per le API di Databricks (ad es. db_cluster_list, db_volume_read)
- Esplora le risorse dello spazio di lavoro dal Pannello Connessioni di RStudio (open_workspace())
- Rende disponibile il databricks-sql-connector tramite {reticulate} (documentazione)
- REPL interattiva di Databricks
DBX
Questo strumento semplifica il lancio di lavori e il processo di implementazione su molteplici ambienti. Aiuta anche a "confezionare" il progetto e fornirlo all'ambiente Databricks in una versione specifica. Progettato in primis per interfacce a riga di comando (CLI), è concepito per essere utilizzato attivamente sia in pipeline CI/CD, sia come parte della strumentazione locale per prototipazione veloce.
Tempo
Lo scopo di questo progetto è fornire un'API per manipolare serie temporali su Apache Spark. Le funzionalità comprendono featurizzazione con valori temporali ritardati, statistiche continue (media, media aritmetica, somma, conteggio ecc.), giunzioni AS OF e sottocampionamento e interpolazione. Questo sistema è stato testato su svariati TB di dati storici.
Plugin PyLint
Questo plugin estende PyLint con controlli per errori e problemi comuni nel codice Python, in particolare nell'ambiente Databricks.
PyTester
PyTester è un modo potente per gestire la preparazione e la pulizia finale dei test in Python. Questa libreria fornisce un insieme di fixture per aiutarti a scrivere test di integrazione per Databricks.
Connettore Java per Delta Sharing
Il connettore Java segue il protocollo Delta Sharing per leggere tabelle condivise da un Delta Sharing Server. Per ridurre ulteriormente e limitare i costi di traffico in uscita sul lato del fornitore di dati, abbiamo implementato una cache persistente per ridurre e limitare i costi di traffico in uscita sul lato del fornitore di dati eliminando le letture non necessarie.
Overwatch
Analizza tutti i lavori e i cluster su tutti gli spazi di lavoro per individuare velocemente dove si possono effettuare gli interventi più incisivi per migliorare le prestazioni e ridurre i costi.
UCX
UCX è un set di strumenti per attivare Unity Catalog (UC) nella tua area di lavoro Databricks. UCX fornisce comandi e flussi di lavoro per migrare tabelle e viste verso UC. UCX consente di riscrivere dashboard, job e notebook per usare le risorse dati migrate in UC. E ci sono molte altre funzionalità.
Tutti i progetti nell'account http://github.com/databrickslabs sono forniti solo a scopo esplorativo e non sono supportati formalmente da Databricks con Service Level Agreement (SLA). Vengono forniti come tali (AS-IS) e senza alcun tipo di garanzia. Qualsiasi problema derivante dall'uso di questo progetto deve essere registrato come GitHub Issue su Repo. Verranno analizzati quando il tempo lo consentirà, ma non esistono contratti di servizio formali per l'assistenza.