Ingegneria dei dati

Su Databricks girano ogni giorno decine di milioni di carichi di lavoro di produzione

immagine sfondo

Acquisisci e trasforma facilmente dati in batch e in streaming sulla Databricks Lakehouse Platform. Organizza flussi di lavoro in produzione affidabili mentre Databricks gestisce automaticamente l'infrastruttura su larga scala. Aumenta la produttività dei team con verifiche integrate della qualità dei dati e supporto di best practice per lo sviluppo di software.

Unificare batch e streaming

Elimina i silos operando su una sola piattaforma con un'unica API per acquisire, trasformare ed elaborare progressivamente dati in batch e in streaming su larga scala.

Concentrati sull'estrazione di valore dai dati

Databricks gestisce automaticamente l'infrastruttura e i componenti operativi dei flussi di lavoro in produzione, consentendo agli utenti di concentrarsi sul valore invece che sugli strumenti.

Connetti i tuoi strumenti preferiti

Una piattaforma lakehouse aperta per connettere e utilizzare gli strumenti preferiti di data engineering per acquisizione, ETL/ELT e orchestrazione dei dati.

Costruisci un sistema basato sulla piattaforma lakehouse

La piattaforma lakehouse è la base più idonea per costruire e condividere risorse di dati affidabili, con una gestione centralizzata, massima affidabilità e tempi rapidi.

immagine sfondo

Come funziona?

Acquisizione dati semplificata

Elaborazione ETL automatizzata

Orchestrazione affidabile dei flussi di lavoro

Osservabilità e monitoraggio a 360 gradi

Motore di elaborazione dati di nuova generazione

Fondamenti di governance, affidabilità e prestazioni

Acquisizione dati semplificata

Acquisisci i dati nella Lakehouse Platform e alimenta le applicazioni di analisi, AI e streaming da un'unica fonte. Auto Loader elabora in modo progressivo e automatico i file che arrivano sullo storage in cloud, senza bisogno di gestire le informazioni di stato, in lavori programmati o continui. Il sistema traccia in modo efficiente i nuovi file (nell'ordine dei miliardi) senza doverli elencare in una directory e, inoltre, può inferire lo schema dai dati sorgente e adattarlo ai cambiamenti che si verificano nel tempo. Il comando COPY INTO agevola gli analisti nell'acquisizione di file in batch in Delta Lake tramite SQL.

Maggiori informazioni

Data Ingestion Code Graphic

Elaborazione ETL automatizzata

Elaborazione ETL automatizzata

Una volta acquisiti, i dati grezzi devono essere trasformati in modo che siano pronti per analisi e AI. Databricks offre potenti funzionalità ETL per ingegneri dei dati, data scientist e analisti con Delta Live Tables (DLT). DLT è il primo framework che adotta un semplice approccio dichiarativo per costruire pipeline ETL e ML su dati in batch o in streaming, automatizzando al tempo stesso attività complesse come la gestione dell'infrastruttura, l'orchestrazione dei compiti, la gestione e il ripristino di errori e l'ottimizzazione delle prestazioni. Con DLT gli ingegneri possono trattare i dati come codice e applicare best practice moderne di ingegneria software come test, gestione, monitoraggio e documentazione degli errori, per implementare pipeline affidabili su larga scala.

Maggiori informazioni

Orchestrazione affidabile dei flussi di lavoro

Databricks Workflows is the fully managed orchestration service for all your data, analytics and AI that is native to your Lakehouse Platform. Orchestrate diverse workloads for the full lifecycle including Delta Live Tables and Jobs for SQL, Spark, notebooks, dbt, ML models and more. Deep integration with the underlying Lakehouse Platform ensures you will create and run reliable production workloads on any cloud while providing deep and centralized monitoring with simplicity for end users.

Maggiori informazioni

Orchestrazione affidabile dei flussi di lavoro

Osservabilità e monitoraggio a 360 gradi

Osservabilità e monitoraggio a 360 gradi

La piattaforma lakehouse offre visibilità su tutto il ciclo di vita di dati e AI, consentendo agli ingegneri dei dati e ai team operativi di visualizzare lo stato di salute dei loro flussi di lavoro in produzione in tempo reale, gestire la qualità dei dati e osservare l'andamento storico. Databricks Workflows offre l'accesso a grafici e dashboard dei flussi di dati che tracciano la salute e le prestazioni dei lavori in produzione e delle pipeline Delta Live Tables. Anche i registri di eventi vengono mostrati come tabelle di Delta Lake, consentendo di monitorare e visualizzare prestazioni, qualità dei dati e metriche affidabili da diverse angolazioni.

Motore di elaborazione dati di nuova generazione

L'ingegneria dei dati di Databricks si basa su Photon, un motore di nuova generazione compatibile con le API di Apache Spark che offre un rapporto prezzo/prestazioni da record e scalabilità automatica a migliaia di nodi. Spark Structured Streaming offre un'unica API per elaborazione in batch e in streaming, agevolando l'adozione dello streaming sul lakehouse senza modificare il codice o acquisire nuove competenze.

Maggiori informazioni

Motore di elaborazione dati di nuova generazione

Governance dei dati, affidabilità e prestazioni all'avanguardia

Governance dei dati, affidabilità e prestazioni all'avanguardia

Svolgendo l'ingegneria dei dati su Databricks, si beneficia dei componenti che costituiscono le fondamenta della Lakehouse Platform: Unity Catalog e Delta Lake. I dati grezzi vengono ottimizzati con Delta Lake, un formato di storage open-source che garantisce affidabilità attraverso transazioni ACID e una gestione scalabile dei metadati con prestazioni ad altissima velocità. Delta Lake insieme a Unity Catalog offre una governance granulare per tutte le risorse di dati e AI, semplificando le modalità di governance con un unico modello omogeneo per scoprire, accedere e condividere i dati su diversi cloud. Unity Catalog offre inoltre supporto nativo per Delta Sharing, il primo protocollo aperto per la condivisione semplice e sicura dei dati con altre organizzazioni.

Live Tables
Lakehouse Plateform
Workflows

Integrazioni

Assicura la massima flessibilità ai team di gestione dei dati, utilizzando Partner Connect e un ecosistema di partner tecnologici per realizzare un'integrazione diretta con gli strumenti di ingegneria dei dati più diffusi. Ad esempio, si possono acquisire dati critici con Fivetran, trasformarli in loco con dbt e orchestrare le pipeline con Apache Airflow.

Acquisizione ed ETL di dati

+ Qualsiasi altro client compatibile con Apache Spark™️

Referenze

ADP
Referenza Asurion

REFERENZA

Shell Logo
“In ADP stiamo migrando i dati di gestione delle risorse umane in un data store integrato sul lakehouse. Delta Live Tables ha aiutato il nostro team a implementare controlli di qualità e, grazie alle API dichiarative e al supporto dell'elaborazione in batch e in tempo reale usando solo SQL, ha consentito al nostro team di risparmiare tempo e lavoro nella gestione dei dati”.

— Jack Berkowitz, CDO, ADP

yipitdata
Referenza Asurion

REFERENZA

Shell Logo
“Con Databricks Workflows i nostri analisti possono facilmente creare, eseguire, monitorare e riparare pipeline di dati senza gestire alcuna infrastruttura. Questo garantisce loro piena autonomia nel progettare e migliorare processi ETL che producono informazioni imprescindibili per i nostri clienti. Non vediamo l'ora di trasferire le nostre pipeline da Airflow a Databricks Workflows.”

— Anup Segu, Senior Software Engineer, YipitData

Contenuti associati

Tutte le risorse di cui hai bisogno in un unico posto. Immagine

Tutte le risorse di cui hai bisogno in un unico posto.

Esplora la libreria di risorse per trovare e-book e video sui vantaggi del data engineering con Databricks.

Pronti per cominciare?

Guide per cominciare

AWSAzureGCP