Un socle de données et d'IA

Qu'est-ce que Jupyter Notebook ?

Application web open source pour documents interactifs combinant code exécutable, équations, visualisations et texte narratif en Python, R et Julia

par Équipe Databricks

L'architecture comprend un noyau (moteur de calcul) exécutant le code dans un langage de programmation spécifique, un serveur gérant les instances du noyau et l'interface de notebook, ainsi qu'une interface utilisateur web permettant une édition enrichie avec Markdown, LaTeX et l'intégration de médias.
Elle prend en charge l'exploration interactive des données, la recherche reproductible, l'analyse collaborative, la création de tutoriels et la génération de rapports prêts à présenter avec des visualisations intégrées grâce à des bibliothèques telles que Matplotlib, Seaborn, Plotly et des widgets interactifs.
Les intégrations incluent le contrôle de version Git, le stockage cloud (S3, Azure Blob), les frameworks Big Data (Spark, Dask) et JupyterHub pour les déploiements multi-utilisateurs avec gestion des ressources et authentification.

Qu'est-ce qu'un notebook Jupyter ?

Un notebook Jupyter est une application Web open source qui permet aux data scientists de créer et de partager des documents comprenant du code en direct, des équations et d'autres ressources multimédias.

Quels sont les cas d'usage d'un notebook Jupyter ?

Les notebooks Jupyter sont utilisés pour toutes sortes de tâches de data science telles que l'analyse exploratoire des données (EDA), leur nettoyage, leur transformation et leur visualisation, ainsi que la modélisation statistique, le machine learning et le deep learning.

Quels avantages y a-t-il à utiliser un notebook Jupyter ?

Les notebooks Jupyter sont particulièrement utiles pour présenter le travail effectué par votre équipe data, notamment grâce à une combinaison de code, de markdown, de liens et d'images. Ils sont faciles à utiliser et peuvent être exécutés cellule par cellule pour mieux comprendre ce que fait le code.

Les notebooks Jupyter peuvent également être convertis dans un certain nombre de formats de sortie standard (HTML, Powerpoint, LaTeX, PDF, ReStructuredText, Markdown, Python) via l'interface Web. Cette flexibilité permet aux data scientists de partager facilement leur travail avec d'autres.

Comment fonctionne un notebook Jupyter ?

Un notebook Jupyter comporte deux éléments : une page Web front-end et un noyau back-end. La page Web front-end permet aux data scientists de saisir du code ou du texte dans des « cellules » rectangulaires. Le navigateur transmet ensuite le code au noyau back-end qui l'exécute et renvoie les résultats.

Quels sont les inconvénients liés à l'utilisation d'un notebook Jupyter ?

Difficile à maintenir et à synchroniser lors d'un travail collaboratif sur le code.
Il est difficile d'opérationnaliser votre code lorsque vous utilisez des notebooks Jupyter. En effet, il n'existe pas d'intégration ou d'outils pour opérationnaliser votre modèle de machine learning.
Difficile à monter en charge : le notebooks Jupyter sont conçus pour la data science à nœud unique. Si vos données sont trop volumineuses pour tenir dans la mémoire de votre ordinateur, il sera beaucoup plus difficile d'utiliser des notebooks Jupyter.

Les notebooks Jupyter sont-ils disponibles sur Databricks ?

Êtes-vous à la recherche d'un puissant outil de collaboration pour la data science ? Plus besoin d'en chercher. Databricks est là ! Nos notebooks vous permettent de travailler avec vos collègues des équipes data engineering, data science et machine learning, et ce dans plusieurs langues. Ils vous offrent également des visualisations de données intégrées et une opérationnalisation avec les jobs. Inscrivez-vous pour un essai gratuit.

Databricks prend-il en charge les notebooks Jupyter ?

Tout à fait. Les clusters Databricks peuvent être configurés pour utiliser le noyau IPython afin de profiter des outils open source de l'écosystème Jupyter (outils d'affichage et de sortie, par exemple). Databricks prend également en charge l'importation et l'exportation de fichiers .ipynb. Ainsi, vous pouvez facilement reprendre une tâche sur Databricks exactement là où vous vous êtes arrêté dans votre notebook Jupyter, et vice versa. Enfin, Databricks prend en charge depuis longtemps les bibliothèques Jupyter open source dans le runtime Databricks pour le machine learning.

Comment utiliser le noyau IPython sur Databricks ?

C'est simple. Consultez la documentation, puis inscrivez-vous pour un essai gratuit de Databricks.

Ressources complémentaires

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs