Nous sommes ravis d'annoncer que les vues matérialisées et les tables de streaming sont désormais accessibles au public dans Databricks SQL sur AWS et Azure. Les tables de streaming permettent une ingestion incrémentielle depuis le stockage cloud et les files de messages. Les vues matérialisées sont mises à jour automatiquement et de manière incrémentielle à mesure que de nouvelles données arrivent. Ensemble, ces deux fonctionnalités permettent de créer des pipelines de données sans infrastructure, simples à configurer et qui fournissent des données à jour à l'entreprise. Dans ce billet de blog, nous allons explorer comment ces nouvelles fonctionnalités permettent aux analystes et aux ingénieurs analytiques de fournir plus efficacement des applications de données et d'analytique dans le data warehouse.
L'entreposage des données et le Data Engineering sont essentiels pour toute organisation data-driven. Les data warehouse constituent le lieu principal pour l'analytique et le reporting, tandis que l'ingénierie des données implique la création de pipelines de données pour ingérer et transformer les données.
Cependant, les data warehouse traditionnels ne sont pas conçus pour l'ingestion et la transformation en streaming. L'ingestion de grands volumes de données à faible latence dans un data warehouse traditionnel est coûteuse et complexe, car les data warehouse hérités ont été conçus pour le traitement par batch. Par conséquent, les équipes ont dû mettre en œuvre des solutions peu pratiques qui nécessitaient des configurations en dehors de l'entrepôt de données et l'utilisation du stockage cloud comme emplacement de transit intermédiaire. La gestion de ces systèmes est coûteuse, sujette aux erreurs et complexe à maintenir.
La Databricks Lakehouse Platform bouleverse ce paradigme traditionnel en fournissant une solution unifiée. Delta Live Tables (DLT) est la meilleure solution pour l'ingénierie et le streaming de données, et Databricks SQL offre un rapport prix/performance jusqu'à 12 fois supérieur pour les charges de travail analytiques sur les data lakes existants.
De plus, des partenaires comme dbt peuvent désormais s'intégrer à ces fonctionnalités natives que nous décrivons plus en détail plus loin dans cette annonce.
Les entrepôts de données servent de source principale pour l'analytique et la diffusion de données pour le reporting interne via des applications de Business Intelligence (BI). Les organisations sont confrontées à plusieurs défis dans l'adoption des data warehouses :
Les tables de streaming et les vues matérialisées permettent aux analystes SQL de bénéficier des meilleures pratiques en matière d'ingénierie des données. Prenons l'exemple de l'ingestion continue de fichiers nouvellement arrivés depuis un emplacement S3 et de la préparation d'une simple table de reporting. Avec Databricks SQL, l'analyste peut rapidement découvrir et prévisualiser les fichiers dans S3 et configurer un pipeline ETL simple en quelques minutes, en utilisant seulement quelques lignes de code comme dans l'exemple suivant :
1- Découvrir et prévisualiser les données dans S3
2- Ingérer des données en streaming
3- Agréger les données de manière incrémentielle à l'aide d'une vue matérialisée
Les vues matérialisées réduisent les coûts et améliorent la latence des requêtes en pré-calculant les requêtes lentes et les calculs fréquemment utilisés. Dans un contexte d'ingénierie des données, elles sont utilisées pour transformer les données. Mais elles sont également précieuses pour les équipes d'analystes dans un contexte d'entreposage des données, car elles peuvent être utilisées pour (1) accélérer les requêtes des utilisateurs finaux et les tableaux de bord BI, et (2) partager des données en toute sécurité. Basées sur les Delta Live Tables, les MVs réduisent la latence des requêtes en précalculant les requêtes qui seraient autrement lentes et les calculs fréquemment utilisés.

Avantages des vues matérialisées :
L'ingestion dans DBSQL s'effectue avec des tables de streaming (STs). Vous pouvez considérer les STs comme idéales pour acheminer des données dans les tables « bronze ». Les STs permettent une ingestion continue et scalable à partir de n'importe quelle source de données, y compris le stockage cloud, les bus de messages (EventHub, Apache Kafka) et plus encore.

Avantages des tables de streaming :

Databricks SQL permet aux analystes SQL et data analysts d'ingérer, de nettoyer et d'enrichir des données facilement pour répondre aux besoins de l'entreprise sans dépendre d'outils tiers. Tout peut être fait entièrement en SQL, ce qui simplifie le flux de travail.
En exploitant les vues matérialisées et les tables de streaming, vous pouvez :

Adobe a une approche avancée de l'IA, avec pour mission de rendre le monde plus créatif, productif et personnalisé grâce à l'intelligence artificielle en tant que copilote qui amplifie l'ingéniosité humaine. En tant que client de premier plan de la préversion des vues matérialisées sur Databricks SQL, ils ont constaté d'énormes avantages techniques et commerciaux qui les aident à remplir cette mission :
« La conversion en vues matérialisées a entraîné une amélioration spectaculaire des performances des requêtes, le temps d'exécution passant de 8 minutes à seulement 3 secondes. Cela permet à notre équipe de travailler plus efficacement et de prendre des décisions plus rapidement sur la base des insights tirés des données. De plus, les économies supplémentaires ont vraiment aidé. — Karthik Venkatesan, responsable principal de l'ingénierie des logiciels de sécurité, Adobe

Fondée en 1948, Danske Spil est la loterie nationale du Danemark et a été l'un de nos premiers clients en avant-première pour les vues matérialisées DB SQL. Søren Klein, responsable de l'équipe d'ingénierie des données, partage son point de vue sur ce qui rend les vues matérialisées si précieuses pour l'organisation :
« Chez Danske Spil, nous utilisons les vues matérialisées pour accélérer les performances de nos données de suivi de site Web. Avec cette fonctionnalité, nous évitons la création de tables inutiles et une complexité accrue, tout en bénéficiant de la vitesse d'une vue persistante qui accélère la solution de reporting pour l'utilisateur final. » — Søren Klein, Responsable de l'équipe d'ingénierie des données, Danske Spil
Databricks et dbt Labs collaborent pour simplifier l'ingénierie analytique en temps réel sur l'architecture lakehouse. La combinaison du framework d'ingénierie analytique très populaire de dbt avec la Databricks Lakehouse Platform offre de puissantes fonctionnalités :
L'entreposage des données et le Data Engineering sont des composants essentiels de toute entreprise data-driven. Cependant, la gestion de solutions distinctes pour chaque aspect est coûteuse, sujette aux erreurs et difficile à maintenir. La Databricks Lakehouse Platform intègre en mode natif les meilleures fonctionnalités de Data Engineering dans Databricks SQL, offrant ainsi une solution unifiée aux utilisateurs SQL. De plus, notre intégration avec des Partenaires comme dbt permet à nos clients communs de tirer parti de ces fonctionnalités uniques pour fournir des insights plus rapides, de l'analytique en temps réel et des workflows de Data Engineering rationalisés.
Vous pouvez commencer dès aujourd'hui avec Databricks et Databricks SQL, ou consulter la documentation sur les vues matérialisées et les tables de streaming.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Plataforma > Produtos > Anúncios
April 24, 2024/3 min de leitura

