Lakeflow Spark Declarative Pipelines

Des pipelines de données fiables en toute simplicité

Simplifiez l'ETL par batch et en streaming en automatisant la fiabilité et la qualité des donnée

LES ÉQUIPES LES PLUS PERFORMANTES CHOISISSENT DES PIPELINES DE DONNÉES INTELLIGENTS

Avantages

Encoder les bonnes pratiques des pipelines de données

Déclarez simplement les transformations de données dont vous avez besoin, et laissez les Spark Declarative Pipelines faire le reste.

Efficacité de l'ingestion

La création de pipelines ETL prêts pour la production commence par l’ingestion. Les Spark Declarative Pipelines permettent une ingestion efficace pour les data engineers, les développeurs Python, les data scientists et les analystes SQL. Chargez des données à partir de n'importe quelle source compatible avec Apache Spark™ sur Databricks, par batch, en streaming ou en CDC.

Transformation intelligente

En quelques lignes de code seulement, les Spark Declarative Pipelines déterminent la meilleure façon de créer et d’exécuter vos pipelines de données en streaming ou en batch, afin d'optimiser automatiquement le coût ou la performance tout en minimisant la complexité.

Opérations automatisées

Les Spark Declarative Pipelines simplifient le développement ETL en codifiant les bonnes pratiques dès le départ et en éliminant la complexité opérationnelle par l'automatisation. Grâce aux Spark Declarative Pipelines, les ingénieurs peuvent se consacrer à fournir des données de haute qualité plutôt qu'à administrer et maintenir l'infrastructure des pipelines.

Fonctionnalités

Pensé pour simplifier la création de pipeline de données

Créer et exploiter des pipelines de données n'a rien de simple, mais ce n'est pas une fatalité. Les Spark Declarative Pipelines sont conçus pour conjuguer simplicité et puissance pour mettre sur pied un ETL robuste en quelques lignes de code.

Grâce à l'API unifiée de Spark pour le traitement par batch et en streaming, les Spark Declarative Pipelines vous permettent d'alterner facilement entre les modes de traitement.

Les Spark Declarative Pipelines permettent d'optimiser facilement les performances du pipeline en déclarant un pipeline de données incrémentiel complet, accompagné de tables de streaming et de vues matérialisées.

Les Spark Declarative Pipelines prennent en charge un large écosystème de sources et de dépôts. Chargez les données de n'importe quelle source : stockage cloud, bus de messages, flux de données de changement, bases de données et applications d'entreprise.

Définissez des attentes pour garantir que les données arrivant dans les tables répondent à vos exigences de qualité, et obtenez des informations sur la qualité des données à chaque mise à jour des pipelines.

Développez des pipelines dans l'IDE de data engineering sans changer de contexte. Visualisez le DAG, l'aperçu des données et les informations d'exécution dans une seule interface utilisateur. Développez facilement du code avec l'autocomplétion, l'affichage intégré des erreurs et les diagnostics.

Autres fonctionnalités

Unification de la gouvernance et du stockage

Repose sur Unity Catalog et des formats de table ouvert conformément aux normes fondamentales du lakehouse

Compute serverless

Rapport performance/prix jusqu'à 5 fois supérieur pour l'ingestion de données et 98 % d'économies sur les transformations complexes.

Orchestration des tâches

Au lieu de définir manuellement une série de tâches Apache Spark™ distinctes, vous définissez les transformations, et les Spark Declarative Pipelines veillent à ce qu'elles soient exécutées dans le bon ordre.

Gestion des erreurs et reprise en cas de panne

Rétablissement fluide suite aux erreurs qui se produisent lors de l'exécution des pipelines de données.

CI/CD et contrôle de version

Spécifiez facilement des configurations pour isoler les pipelines des environnements de développement, de test et de production.

Supervision et observabilité du pipeline

Fonctionnalités de surveillance et d'observabilité intégrées : data lineage, historique des mises à jour et rapports sur la qualité des données.

Planification flexible de l'actualisation

Optimisez facilement la latence ou le coût en fonction des exigences de votre pipeline.

Cas d’utilisation

Rationalisez vos pipelines de données

Simplifiez la gestion des sources, des transformations et des destinations simples

Grâce à la programmation déclarative, vous pouvez exploiter la puissance de l'ETL sur la Data Intelligence Platform en quelques lignes de code.

Démarrer

Assurez facilement l'intégrité et la cohérence des données

Simplifiez la capture des modifications de données avec les API APPLY CHANGES qui prennent en charge les flux de données de modification et les instantanés de base de données. Les Spark Declarative Pipelines gèrent automatiquement les enregistrements hors séquence pour le SCD Type 1 et 2, ce qui simplifie les aspects les plus délicats du CDC.

Démarrer

Créez de nouveaux cas d'utilisation en temps réel sans outils supplémentaires

Créez et exécutez des pipelines par batch et en streaming en un seul endroit avec des paramètres de rafraîchissement contrôlables et automatisés, ce qui permet de gagner du temps et de réduire la complexité opérationnelle. Avec le streaming de données, améliorez immédiatement la précision de votre analytique et de votre IA pour en exploiter tout le potentiel.

Démarrer

Intégrez sans effort les bonnes pratiques de data engineering au domaine de l'entreposage de données

Avec les Spark Declarative Pipelines, les utilisateurs de votre data warehouse peuvent exploiter toute la puissance de l'ETL déclaratif via une interface SQL accessible. Mettez des pipelines de données sans code et sans infrastructure à la disposition de vos analystes SQL pour fournir les données les plus récentes à toute l'entreprise avec un minimum de configuration ou de dépendances.

Démarrer

Explorez les démos des Spark Declarative Pipelines

Voir toutes les démos

Visite guidée

Visite guidée des Spark Declarative Pipelines

demo center lakeflow declarative pipelines

Vidéo

Démo d’avionique en temps réel avec Spark Declarative Pipelines

Vidéo

Ingénierie des données avec Lakeflow

Vidéo

Création d’une application de données avec Lakeflow

Tarifs

Les tarifs basés sur l'utilisation permettent de maîtriser les dépenses

Ne payez que les produits que vous utilisez, à la seconde près.

Découvrir les tarifs

Produits connexes

En savoir plus

Explorez d'autres offres intelligentes et intégrées sur la Data Intelligence Platform.

LakeFlow Connect

Avec des connecteurs d'ingestion de données efficaces pour tous les types de source et une intégration native à la Data Intelligence Platform, les équipes accèdent en toute simplicité à l'analytique et à l'IA avec une gouvernance unifiée.

Tâches Lakeflow

Définissez, gérez et supervisez en toute simplicité des workflows multitâche pour vos pipelines ETL, d'analytique et de machine learning. Grâce à la prise en charge d'un large éventail de types de tâches, une observabilité approfondie et une grande fiabilité, vos équipes sont en mesure de mieux automatiser et orchestrer tout type de pipeline pour gagner en productivité.

Stockage en lakehouse

Unifiez les données du lakehouse, quels que soient leur format et leur type, pour les mettre à disposition de toutes vos charges d'analytique et d'IA.

Unity Catalog

Encadrez sans problème tous vos assets de données avec la seule solution de gouvernance unifiée et ouverte de l'industrie pour les données et l'IA, intégrée à la Databricks Data Intelligence Platform

La Data Intelligence Platform

Découvrez les avantages de la Databricks Data Intelligence Platform pour vos charges de données et d'IA.

Passez à l'étape suivante

Explorez la documentation des Spark Declarative Pipelines

Tout ce dont vous avez besoin pour commencer à utiliser des Spark Declarative Pipelines sur les environnements AWS, Microsoft Azure ou Google Cloud Platform.