Passa al contenuto principale

Ingegneria dei dati

Su Databricks girano ogni giorno decine di milioni di carichi di lavoro di produzione

data-engineering-header

Acquisisci e trasforma facilmente dati in batch e in streaming sulla Databricks Lakehouse Platform. Organizza flussi di lavoro in produzione affidabili mentre Databricks gestisce automaticamente l'infrastruttura su larga scala. Aumenta la produttività dei team con verifiche integrate della qualità dei dati e supporto di best practice per lo sviluppo di software.

Operate from First Principles

Unificare batch e streaming

Elimina i silos operando su una sola piattaforma con un'unica API per acquisire, trasformare ed elaborare progressivamente dati in batch e in streaming su larga scala.

Raise the Bar

Concentrati sull'estrazione di valore dai dati

Databricks gestisce automaticamente l'infrastruttura e i componenti operativi dei flussi di lavoro in produzione, consentendo agli utenti di concentrarsi sul valore invece che sugli strumenti.

We Put the Company First

Connetti i tuoi strumenti preferiti

Una piattaforma lakehouse aperta per connettere e utilizzare gli strumenti preferiti di data engineering per acquisizione, ETL/ELT e orchestrazione dei dati.

multicloud

Costruisci un sistema basato sulla piattaforma lakehouse

La piattaforma lakehouse è la base più idonea per costruire e condividere risorse di dati affidabili, con una gestione centralizzata, massima affidabilità e tempi rapidi.

“Per noi, Databricks sta diventando una vera e propria centrale per tutto il nostro lavoro ETL. Più lavoriamo con la Lakehouse Platform, più diventa facile sia per gli utenti sia per gli amministratori della piattaforma”.

— Hillevi Crognale, Engineering Manager, YipitData

Come funziona?

demarketecture

Acquisizione dati semplificata

Elaborazione ETL automatizzata

Orchestrazione affidabile dei flussi di lavoro

Osservabilità e monitoraggio a 360 gradi

Motore di elaborazione dati di nuova generazione

Fondamenti di governance, affidabilità e prestazioni

dataIngestion

Acquisizione dati semplificata

Acquisisci i dati nella Lakehouse Platform e alimenta le applicazioni di analisi, AI e streaming da un'unica fonte. Auto Loader elabora in modo progressivo e automatico i file che arrivano sullo storage in cloud, senza bisogno di gestire le informazioni di stato, in lavori programmati o continui. Il sistema traccia in modo efficiente i nuovi file (nell'ordine dei miliardi) senza doverli elencare in una directory e, inoltre, può inferire lo schema dai dati sorgente e adattarlo ai cambiamenti che si verificano nel tempo. Il comando COPY INTO agevola gli analisti nell'acquisizione di file in batch in Delta Lake tramite SQL.

“Abbiamo registrato un incremento della produttività del 40% nel data engineering, riducendo il tempo necessario per sviluppare nuove idee da alcuni giorni a pochi minuti e aumentando la disponibilità e l'accuratezza dei nostri dati”.
— Shaun Pearce, Chief Technology Officer, Gousto

automated-etl-processing

Elaborazione ETL automatizzata

Una volta acquisiti, i dati grezzi devono essere trasformati in modo che siano pronti per analisi e AI. Databricks offre potenti funzionalità ETL per ingegneri dei dati, data scientist e analisti con Delta Live Tables (DLT). DLT è il primo framework che adotta un semplice approccio dichiarativo per costruire pipeline ETL e ML su dati in batch o in streaming, automatizzando al tempo stesso attività complesse come la gestione dell'infrastruttura, l'orchestrazione dei compiti, la gestione e il ripristino di errori e l'ottimizzazione delle prestazioni. Con DLT gli ingegneri possono trattare i dati come codice e applicare best practice moderne di ingegneria software come test, gestione, monitoraggio e documentazione degli errori, per implementare pipeline affidabili su larga scala.

reliable-workflow

Orchestrazione affidabile dei flussi di lavoro

Databricks Workflows è il servizio completamente gestito per l'orchestrazione di tutti i dati, le analisi e l'AI, nativo sulla Lakehouse Platform. Si possono orchestrare diversi carichi di lavoro per l'intero ciclo di vita, inclusi Delta Live Tables e Jobs per SQL, Spark, notebook, dbt, modelli di ML e altro ancora. La stretta integrazione con la Lakehouse Platform sottostante consente di creare ed eseguire carichi di lavoro in produzione affidabili su qualsiasi cloud, offrendo al tempo stesso un monitoraggio accurato e centralizzato, con la massima semplicità per gli utilizzatori finali.

"La nostra missione è trasformare il modo in cui alimentiamo il pianeta. I nostri clienti del settore energetico hanno bisogno di dati, servizi di consulenza e ricerca per realizzare questa trasformazione. Databricks Workflows ci offre la velocità e la flessibilità necessarie per fornire gli approfondimenti di cui i nostri clienti hanno bisogno".

— Yanyan Wu, Vice President of Data, Wood Mackenzie

observability

Osservabilità e monitoraggio a 360 gradi

La piattaforma lakehouse offre visibilità su tutto il ciclo di vita di dati e AI, consentendo agli ingegneri dei dati e ai team operativi di visualizzare lo stato di salute dei loro flussi di lavoro in produzione in tempo reale, gestire la qualità dei dati e osservare l'andamento storico. Databricks Workflows offre l'accesso a grafici e dashboard dei flussi di dati che tracciano la salute e le prestazioni dei lavori in produzione e delle pipeline Delta Live Tables. Anche i registri di eventi vengono mostrati come tabelle di Delta Lake, consentendo di monitorare e visualizzare prestazioni, qualità dei dati e metriche affidabili da diverse angolazioni.

next-generation

Motore di elaborazione dati di nuova generazione

L'ingegneria dei dati di Databricks si basa su Photon, un motore di nuova generazione compatibile con le API di Apache Spark che offre un rapporto prezzo/prestazioni da record e scalabilità automatica a migliaia di nodi. Spark Structured Streaming offre un'unica API per elaborazione in batch e in streaming, agevolando l'adozione dello streaming sul lakehouse senza modificare il codice o acquisire nuove competenze.

state-of-the-art

Governance dei dati, affidabilità e prestazioni all'avanguardia

Il data engineering su Databricks permette di beneficiare dei componenti che costituiscono le fondamenta della Lakehouse Platform : Unity Catalog e Delta Lake. I dati grezzi vengono ottimizzati con Delta Lake, un formato di storage open-source che garantisce affidabilità attraverso transazioni ACID e una gestione scalabile dei metadati con prestazioni ad altissima velocità. Delta Lake insieme a Unity Catalog offre una governance granulare per tutte le risorse di dati e AI, semplificando le modalità di governance con un unico modello omogeneo per scoprire, accedere e condividere i dati su diversi cloud. Unity Catalog offre inoltre supporto nativo per Delta Sharing, il primo protocollo aperto del settore per la condivisione semplice e sicura dei dati con altre organizzazioni.

Migrazione a Databricks

Stanco dei silos di dati, della lentezza e dei costi esorbitanti di sistemi obsoleti come Hadoop e i data warehouse aziendali? Migra a Databricks Lakehouse, la piattaforma moderna per tutti i casi d'uso di gestione dei dati, analisi e AI.

Migrazione a Databricks

Integrazioni

Assicura la massima flessibilità ai team di gestione dei dati, utilizzando Partner Connect e un ecosistema di partner tecnologici per realizzare un'integrazione diretta con gli strumenti di ingegneria dei dati più diffusi. Ad esempio, si possono acquisire dati critici con Fivetran, trasformarli in loco con dbt e orchestrare le pipeline con Apache Airflow.

Acquisizione ed ETL di dati

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

Referenze

comcast
hsbc
laliga
atlassian
columbia
comcast
hsbc
laliga
atlassian
columbia
comcast

Scopri di più

Delta

Delta Lake

Partner Connect

Flussi di lavoro

Unity

Delta Live Tables

icon-orange-Collaborative-min

Delta Sharing

Contenuti associati