Passa al contenuto principale

Acquisizione di dati

Carica facilmente i dati in Delta Lake

Con Databricks si possono acquisire facilmente dati da centinaia di sorgenti in modo graduale ed efficiente, portandoli in Delta Lake per assicurare che il lakehouse contenga sempre i dati più completi e aggiornati per data science, machine learning e business analytics.

Acquisizione di dati semplificata

secondary icon

Auto Loader

Utilizza Auto Loader per acquisire qualsiasi file che possa essere inserito in un data lake all'interno del Delta Lake. Puntando Auto Loader verso una directory su servizi di storage in cloud come Amazon S3, Azure Data Lake Storage o Google Compute Storage, Auto Loader elaborerà progressivamente i nuovi file esattamente con la stessa semantica.

graphic

Tracciamento e monitoraggio

Affidati ad Auto Loader per tracciare quali file sono stati elaborati, scoprire dati giunti in ritardo, dedurre schemi nei dati, monitorare cambiamenti di schema nel tempo e recuperare dati che presentano problemi di qualità. Auto Loader può acquisire dati in modo continuo in pochi secondi o può essere programmato per operare in base alla frequenza di arrivo dei dati, una volta all'ora così come una volta al mese.

Icon Graphic

Copy into

Il comando SQL COPY INTO consente di effettuare l'acquisizione di file in batch in Delta Lake. COPY INTO è un comando che acquisisce file sempre con la stessa semantica ed è particolarmente indicato quando la directory di ingresso contiene migliaia di file o meno e l'utente preferisce SQL. COPY INTO può essere usato tramite JDBC per trasferire i dati in Delta Lake a proprio piacimento.

Data ingestion Delta Lake
Data ingestion - Data processing

Elaborazione efficiente dei dati

Databricks consente di estrarre dati dalle code di messaggi più diffuse, come Apache Kafka, Azure Event Hubs o AWS Kinesis a latenze inferiori. Acquisendo dati da queste sorgenti in Delta Lake, non bisogna più preoccuparsi di perdere i dati presenti all'interno di questi servizi a causa delle politiche di conservazione. I dati possono essere rielaborati a costi inferiori e in modo più efficiente secondo l'evoluzione delle esigenze aziendali; inoltre, si può conservare una vista storica dei dati per periodi più lunghi, per alimentare applicazioni di machine learning e business analytics.

Unificare dati provenienti da tutte le applicazioni aziendali

Sfrutta un'ampia rete di partner per l'acquisizione di dati come Azure Data Factory, Fivetran, Qlik, Infoworks, StreamSets e Syncsort per acquisire facilmente dati da applicazioni, data store, mainframe, file e altre sorgenti, portandoli in Delta Lake attraverso una serie di connettori facili da usare. Sfrutta un ecosistema di partner per realizzare il pieno potenziale dell'unificazione di Big Data e dati provenienti da applicazioni, database, mainframe e file system in cloud.

Data ingestion network of partners

Acquisire i dati delle modifiche (CDC) da database applicativi in Delta Lake

L'attività della tua azienda dipende dai database delle applicazioni. Attingere direttamente ai database per casi d'uso di analisi dei dati può provocare interruzioni nelle applicazioni a causa del carico eccessivo sul database. Replicando i set di dati nel lakehouse, si garantisce che le applicazioni aziendali possano operare senza interferenze, sfruttando al tempo stesso le informazioni preziose nei casi d'uso di analisi. I dati possono essere acquisiti da questi data store attraverso servizi come Azure Data Factory, AWS DMS e Auto Loader o partner come like Fivetran.

Clienti

Contenuti associati

Webinar

2022-01-WB-Hassle-Free-Data-Ingestion-Webinar-Series-OG-1200x628-1

eBook

2021-08-EB-Data-Management-101-on-Databricks-OG-1200x628-1

eBook

2022-02-EB-All-Roads-Lead-to-the-Lakehouse-OG-1200x628-1