Open Source

Les ingénieurs de Databricks sont les créateurs de plusieurs technologies de données open source parmi les plus populaires au monde

Participez à un Meetup
image d'arrière-plan

Nos projets Open Source les plus populaires

icône-titre
Apache SparkTM
Apache Spark est un moteur unifié pour exécuter des charges de travail de data engineering, de Data Science et de ML.

Qu'est-ce qu'Apache Spark ? →

Comparaison de Spark et Databricks →

Rendez-vous sur spark.apache.org →

icône-titre
Delta Lake
Delta Lake vous permet de construire une architecture de lakehouse sur des systèmes de stockage tels qu'AWS S3, ADLS, GCS et HDFS.

En savoir plus sur Delta Lake →

Rendez-vous sur delta.io →

Conférences sur la tech : démarrer avec Delta Lake →

icône-titre
MLflow
MLflow gère le cycle de vie du ML, y compris l'expérimentation, la reproductibilité, le déploiement et un registre central des modèles.

MLflow administré
sur Databricks →

Rendez-vous sur mlflow.org →

Conférences : gérer le cycle de vie du Machine learning →

icône-titre
Redash
Redash permet à quiconque d'exploiter SQL pour explorer, interroger, visualiser et partager des données à partir de petites ou de grandes sources de données (small et big data).

Découvrez Redash sur GitHub →

icône-titre
Delta Sharing
Delta Sharing est le premier protocole ouvert pour le partage sécurisé des données. Il permet d'échanger facilement des données avec d'autres organisations.

Découvrez Delta Sharing →

Databricks prend en charge ces technologies open source courantes supplémentaires

icône-titre
TensorFlow
Databricks prend en charge TensorFlow, une bibliothèque de référence pour le deep learning et les clusters de calcul

TensorFlow sur Databricks →

icône-titre
PyTorchTM
Facebook, le créateur de PyTorch, et Databricks ont collaboré sur des intégrations communes.

PyTorch sur Databricks →

icône-titre
KerasTM
API de deep learning écrite en Python, Keras fonctionne par-dessus TensorFlow. Elle est disponible dans Databricks Runtime pour ML.

Keras sur Databricks →

icône-titre
RStudio
Une suite d'outils open source pour la Data Science collaborative à l'aide de R ​

Programmation R pour le Big Data →

icône-titre
Scikit-learn
Package Python largement utilisé dans le Machine Learning basé sur NumPy, SciPy et Matplotlib​​

Scikit-learn sur Databricks →

icône-titre
xgboost
Une bibliothèque distribuée de boosting de gradient reliée aux langages tels que Python, R et C++.

XGBoost sur Databricks →

icône-titre
Terraform
HashiCorp Terraform est un outil open source populaire qui permet de créer une infrastructure cloud sûre et prévisible englobant plusieurs fournisseurs de services cloud. Le fournisseur Terraform de Databricks permet aux clients de disposer d'un outil flexible et puissant pour gérer l'ensemble de leurs espaces de travail Databricks et le reste de leur infrastructure. L'utilisation de Terraform encourage également les clients à adopter les bonnes pratiques avec l'infrastructure en tant que code (IaC).

Terraform on Databricks →

Prêt à vous
lancer ?