API Pandas Avec Spark en Arrière-Plan (Koalas)
Type de démo
Tutoriel de produit
Durée
À votre rythme
Contenu associé
Qu'allez-vous apprendre ?
Malgré le fait qu'il soit l'un des cadres les plus populaires pour l'analyse de données, pandas n'est pas distribué et ne peut pas traiter des téraoctets de données. Databricks résout ce problème en permettant aux utilisateurs d'utiliser l'API pandas tout en traitant les données avec le moteur distribué Spark. Cette démo vous montre comment traiter de grandes quantités de données en utilisant l'API pandas (précédemment connue sous le nom de Koalas).
Pour installer la démo, obtenez un espace de travail Databricks gratuit et exécutez les deux commandes suivantes dans un carnet de notes Python
%pip installez dbdemos
import dbdemos
dbdemos.install('pandas-sur-spark')
Dbdemos est une bibliothèque Python qui installe des démonstrations Databricks complètes dans vos espaces de travail. Dbdemos chargera et démarrera des notebooks, des pipelines Delta Live Tables, des clusters, des tableaux de bord Databricks SQL, des modèles d'entrepôt ... Voir comment utiliser dbdemos
Dbdemos est distribué en tant que projet GitHub.
Pour plus de détails, veuillez consulter le GitHub fichier README.md et suivez la documentation.
Dbdemos est fourni tel quel. Voir le Licence et Notice pour plus d'informations.
Databricks n'offre pas de support officiel pour dbdemos et les ressources associées.
Pour tout problème, veuillez ouvrir un ticket et l'équipe de démonstration examinera sur une base de meilleurs efforts.