
Avec Databricks, importez les données de centaines de sources de façon incrémentielle et efficace dans votre Delta Lake, pour veiller à ce que votre lakehouse mette toujours les données les plus complètes et les plus récentes au service de vos projets de data science, de machine learning et d'analytique métier.
Simplifier l'importation de données
Auto Loader
Utilisez Auto Loader pour importer dans Delta Lake n'importe quel fichier pouvant résider dans un data lake. Indiquez à Auto Loader l'emplacement d'un répertoire dans des services de stockage cloud comme Amazon S3, Azure Data Lake Storage ou Google Compute Storage. Auto Loader importera les nouveaux fichiers de façon incrémentielle avec une sémantique « exactly-once ».
Suivi et supervision
Auto Loader se charge de suivre quels fichiers ont été traités, de découvrir les données arrivées par la suite, de déduire le schéma de vos données, de suivre ses modifications au fil du temps et de récupérer les données présentant des problèmes de qualité. Auto Loader peut importer des données de façon continue en quelques secondes, ou s'exécuter à la fréquence prévue d'arrivée des données – une fois par heure, par jour ou par mois.
Copy into
La commande SQL COPY INTO vous permet d'importer des batches de fichiers dans Delta Lake. La commande COPY INTO incorpore les fichiers avec une sémantique « exactly-once », idéale lorsque le répertoire d'entrée contient des milliers de fichiers (ou moins), et que l'utilisateur a une préférence pour SQL. COPY INTO peut être utilisé sur JDBC afin de pousser des données dans Delta Lake selon vos besoins.


Traitement efficace des données
Avec Databricks, vous pouvez extraire les données de files de messages populaires comme Apache Kafka, Azure Event Hubs ou AWS Kinesis avec des latences réduites. Lorsque vous importez vos données de ces sources dans votre Delta Lake, vous n'avez pas à craindre de perdre quoi que ce soit à cause des politiques de conservation. Vous bénéficiez également d'un moyen plus économique et efficace de retraiter les données au fil de l'évolution de vos besoins métier. Vous pouvez aussi conserver un historique plus long de vos données pour alimenter vos applications de machine learning et d'analytique métier.
Unifiez les données des autres applications d'entreprise
Importez des données en vous appuyant sur un vaste réseau de partenaires, dont Azure Data Factory, Fivetran, Qlik, Infoworks, StreamSets et Syncsort. Grâce à une galerie de connecteurs très simples, exploitez les données de vos applications, data stores, mainframes, fichiers et autres dans votre Delta Lake. Misez sur l'écosystème de partenaires pour profiter pleinement des possibilités offertes en combinant le big data et les données des applications cloud, des bases de données, des mainframes et des systèmes de fichiers.

Importez les données de capture des modifications depuis les bases de données des applications dans Delta Lake
Votre entreprise repose sur les bases de données de vos applications. Si vous les exploitez directement dans vos projets d'analytique, vous risquez de perturber le fonctionnement de vos applications en exerçant une charge trop lourde sur la base. En revanche, si vous répliquez ces datasets dans votre lakehouse, vous veillez à ce que vos applications métier fonctionnent de façon parfaitement fluide, tout en mettant vos précieuses informations à contribution dans vos cas d'usage analytiques. Vous pouvez importer les données de ces data stores à l'aide de services comme Azure Data Factory, AWS DMS et Auto Loader ou bien encore de partenaires comme Fivetran.