Passa al contenuto principale

Open source

Gli ingegneri di Databricks sono i creatori di alcune delle tecnologie open-source per la gestione dei dati più utilizzate al mondo

I nostri progetti open-source più noti

Apache Spark™

Apache Spark è un motore unico per eseguire carichi di lavoro per ingegneria dei dati, data science e ML.

Che cos'è Apache Spark?

Spark e Databricks a confronto

Visita spark.apache.org

Delta Lake

Delta Lake consente di costruire un'architettura lakehouse su sistemi di storage come AWS S3, ADLS, GCS e HDFS.

Maggiori informazioni su Delta Lake

Visita delta.io

Dibattiti tecnici: Primi passi con Delta Lake

MLFLOW

MLflow gestisce il ciclo di vita ML, con sperimentazione, riproducibilità, implementazione e un registro centralizzato dei modelli.

Managed MLflow su Databricks

Visita mlflow.org

Dibattiti tecnici: Gestire il ciclo di vita del ML

Redash

Redash consente a tutti di utilizzare SQL per esplorare, interrogare, visualizzare e condividere dati da sorgenti di piccola e grande entità.

Visita Redash su GitHub

Delta Sharing

Delta Sharing è il primo protocollo aperto per la condivisione sicura dei dati, che semplifica la condivisione con altre organizzazioni.

Visita Delta Sharing

Databricks supporta altre tecnologie open-source molto diffuse

tensorflow

Databricks supporta TensorFlow, una libreria per deep learning e calcolo generico su cluster

TensorFlow su Databricks

PyTorch™

Facebook, creatore di PyTorch, e Databricks hanno collaborato alle integrazioni

PyTorch su Databricks

Keras™

API di Deep Learning scritte in Python che girano su TensorFlow. Disponibili in Databricks Runtime per ML.

Keras su Databricks

RStudio

Una suite open-source di strumenti per data science collaborativa che utilizza R ​

Programmazione R su Big Data

scikit-learn

Pacchetto Python molto utilizzato per machine learning basato su NumPy, SciPy e Matplotlib​​

Scikit-learn su Databricks

XGBoost

Libreria software di regolarizzazione del gradiente per linguaggi come Python, R e C++

XGBoost su Databricks

Terraform

HashiCorp Terraform è uno strumento open-source molto diffuso per creare un'infrastruttura sicura e prevedibile su diversi provider di servizi cloud. Il provider Databricks Terraform consente ai clienti di gestire tutti i loro spazi di lavoro Databricks e il resto dell'infrastruttura con un unico strumento potente e flessibile. L'uso di Terraform porta inoltre i clienti ad adottare best practice con infrastruttura come codice (IaC)

Terraform su Databricks

Pronto per cominciare?