Open source
Gli ingegneri di Databricks sono i creatori di alcune delle tecnologie open-source per la gestione dei dati più utilizzate al mondo
I nostri progetti open-source più noti
Apache Spark™
Apache Spark è un motore unico per eseguire carichi di lavoro per ingegneria dei dati, data science e ML.
Delta Lake
Delta Lake consente di costruire un'architettura lakehouse su sistemi di storage come AWS S3, ADLS, GCS e HDFS.
MLFLOW
MLflow gestisce il ciclo di vita ML, con sperimentazione, riproducibilità, implementazione e un registro centralizzato dei modelli.
Redash
Redash consente a tutti di utilizzare SQL per esplorare, interrogare, visualizzare e condividere dati da sorgenti di piccola e grande entità.
Delta Sharing
Delta Sharing è il primo protocollo aperto per la condivisione sicura dei dati, che semplifica la condivisione con altre organizzazioni.
Databricks supporta altre tecnologie open-source molto diffuse
tensorflow
Databricks supporta TensorFlow, una libreria per deep learning e calcolo generico su cluster
PyTorch™
Facebook, creatore di PyTorch, e Databricks hanno collaborato alle integrazioni

Keras™
API di Deep Learning scritte in Python che girano su TensorFlow. Disponibili in Databricks Runtime per ML.
RStudio
Una suite open-source di strumenti per data science collaborativa che utilizza R
scikit-learn
Pacchetto Python molto utilizzato per machine learning basato su NumPy, SciPy e Matplotlib
XGBoost
Libreria software di regolarizzazione del gradiente per linguaggi come Python, R e C++
Terraform
HashiCorp Terraform è uno strumento open-source molto diffuso per creare un'infrastruttura sicura e prevedibile su diversi provider di servizi cloud. Il provider Databricks Terraform consente ai clienti di gestire tutti i loro spazi di lavoro Databricks e il resto dell'infrastruttura con un unico strumento potente e flessibile. L'uso di Terraform porta inoltre i clienti ad adottare best practice con infrastruttura come codice (IaC)