Revenir au contenu principal

Ingestion des données

Chargez facilement vos données dans Delta Lake

Avec Databricks, importez les données de centaines de sources de façon incrémentielle et efficace dans votre Delta Lake, pour veiller à ce que votre lakehouse mette toujours les données les plus complètes et les plus récentes au service de vos projets de data science, de machine learning et d'analytique métier.

Simplifier l'importation de données

secondary icon

Auto Loader

Utilisez Auto Loader pour importer dans Delta Lake n'importe quel fichier pouvant résider dans un data lake. Indiquez à Auto Loader l'emplacement d'un répertoire dans des services de stockage cloud comme Amazon S3, Azure Data Lake Storage ou Google Compute Storage. Auto Loader importera les nouveaux fichiers de façon incrémentielle avec une sémantique « exactly-once ».

graphic

Suivi et supervision

Auto Loader se charge de suivre quels fichiers ont été traités, de découvrir les données arrivées par la suite, de déduire le schéma de vos données, de suivre ses modifications au fil du temps et de récupérer les données présentant des problèmes de qualité. Auto Loader peut importer des données de façon continue en quelques secondes, ou s'exécuter à la fréquence prévue d'arrivée des données – une fois par heure, par jour ou par mois.

Icon Graphic

Copy into

La commande SQL COPY INTO vous permet d'importer des batches de fichiers dans Delta Lake. La commande COPY INTO incorpore les fichiers avec une sémantique « exactly-once », idéale lorsque le répertoire d'entrée contient des milliers de fichiers (ou moins), et que l'utilisateur a une préférence pour SQL. COPY INTO peut être utilisé sur JDBC afin de pousser des données dans Delta Lake selon vos besoins.

Data ingestion Delta Lake
Data ingestion - Data processing

Traitement efficace des données

Avec Databricks, vous pouvez extraire les données de files de messages populaires comme Apache Kafka, Azure Event Hubs ou AWS Kinesis avec des latences réduites. Lorsque vous importez vos données de ces sources dans votre Delta Lake, vous n'avez pas à craindre de perdre quoi que ce soit à cause des politiques de conservation. Vous bénéficiez également d'un moyen plus économique et efficace de retraiter les données au fil de l'évolution de vos besoins métier. Vous pouvez aussi conserver un historique plus long de vos données pour alimenter vos applications de machine learning et d'analytique métier.

Unifiez les données des autres applications d'entreprise

Importez des données en vous appuyant sur un vaste réseau de partenaires, dont Azure Data Factory, Fivetran, Qlik, Infoworks, StreamSets et Syncsort. Grâce à une galerie de connecteurs très simples, exploitez les données de vos applications, data stores, mainframes, fichiers et autres dans votre Delta Lake. Misez sur l'écosystème de partenaires pour profiter pleinement des possibilités offertes en combinant le big data et les données des applications cloud, des bases de données, des mainframes et des systèmes de fichiers.

Data ingestion network of partners

Importez les données de capture des modifications depuis les bases de données des applications dans Delta Lake

Votre entreprise repose sur les bases de données de vos applications. Si vous les exploitez directement dans vos projets d'analytique, vous risquez de perturber le fonctionnement de vos applications en exerçant une charge trop lourde sur la base. En revanche, si vous répliquez ces datasets dans votre lakehouse, vous veillez à ce que vos applications métier fonctionnent de façon parfaitement fluide, tout en mettant vos précieuses informations à contribution dans vos cas d'usage analytiques. Vous pouvez importer les données de ces data stores à l'aide de services comme Azure Data Factory, AWS DMS et Auto Loader ou bien encore de partenaires comme Fivetran.

Clients

Contenu associé

Webinaire

2022-01-WB-Hassle-Free-Data-Ingestion-Webinar-Series-OG-1200x628-1

e-book

2021-08-EB-Data-Management-101-on-Databricks-OG-1200x628-1

e-book

2022-02-EB-All-Roads-Lead-to-the-Lakehouse-OG-1200x628-1