Passa al contenuto principale

Annuncio della disponibilità generale di Lakehouse Federation

Scopri, interroga, governa tutti i tuoi dati, ovunque si trovino

Lakehouse Federation

Pubblicato: 1 agosto 2024

Annunci5 min di lettura

Oggi siamo entusiasti di annunciare che Lakehouse Federation in Unity Catalog è ora disponibile a livello generale (GA) su AWS, Azure e GCP! Lakehouse Federation ti consente di scoprire, interrogare e governare tutti i tuoi dati in un unico posto. Con questa release GA, puoi aspettarti una maggiore stabilità, sicurezza e prontezza aziendale per i tuoi carichi di lavoro federati.

In questo post del blog, esamineremo le funzionalità GA di Lakehouse Federation, esploreremo come sta potenziando l'analisi agile nelle aziende leader a livello mondiale e discuteremo cosa ci riserva il futuro.

Lakehouse Federation Primer

Le organizzazioni di tutto il mondo, indipendentemente dalle dimensioni o dal settore, sfruttano i dati e l'IA per promuovere l'innovazione. Tuttavia, per ragioni storiche, organizzative o tecnologiche, i dati rimangono spesso dispersi su più sistemi operativi e analitici. Questa frammentazione porta a diverse sfide:

  1. Difficoltà nel scoprire e accedere a tutti i dati
  2. Esecuzione lenta dovuta a colli di bottiglia ingegneristici
  3. Scarsa conformità tra sistemi isolati

Lakehouse Federation affronta questi punti critici e semplifica l'esposizione, l'interrogazione e la governance dei sistemi di dati isolati come estensione del proprio lakehouse. Con queste nuove funzionalità, puoi:

  1. Creare una vista unificata del tuo patrimonio di dati: Classifica e scopri automaticamente tutti i tuoi dati, strutturati e non strutturati, in un unico posto e consenti a tutti nella tua organizzazione di accedere ed esplorare in modo sicuro tutti i dati disponibili a portata di mano, indipendentemente da dove si trovino.
  2. Interrogare e combinare tutti i dati in modo efficiente con un unico motore: Accelera l'analisi ad hoc e il prototyping per tutti i tuoi casi d'uso di dati, analisi e IA sui dati più completi, senza necessità di ingestion, con un unico motore. La pianificazione avanzata delle query tra le origini e la cache garantiscono prestazioni ottimali delle query anche quando si accede e si combinano dati da più piattaforme con un'unica query.
  3. Salvaguardare i dati tra le origini dati: Utilizza un unico modello di autorizzazione per impostare e applicare regole di accesso e salvaguardare tutti i tuoi dati tra le origini dati. Applica regole come la sicurezza a livello di riga e colonna, le policy basate su tag, l'auditing centralizzato in modo coerente tra le piattaforme, traccia l'utilizzo dei dati e soddisfa i requisiti di conformità con la lineage dei dati e l'auditabilità integrate.

Oltre 5.000 clienti Databricks stanno sfruttando Lakehouse Federation per unificare i propri patrimoni di dati, garantendo una scoperta e una governance dei dati coerenti.

Lakehouse Federation

"Lakehouse Federation ci ha permesso di combinare tutte le nostre risorse di dati tra più data warehouse e database sotto Unity Catalog, semplificando la scoperta dei dati e la gestione degli accessi. Questo sblocca una varietà di casi d'uso, inclusi ingestion e query ad hoc, rendendo le nostre analisi più facili che mai." — Alexander Booth, Assistant Director of Research presso i Texas Rangers

Disponibilità Generale

Siamo entusiasti di annunciare la disponibilità generale per i connettori MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, SQL Server e Azure Synapse.

Questa release segna un traguardo importante in diverse aree:

  1. Prestazioni migliorate: Con questa release, abbiamo aumentato significativamente la copertura di espressioni e operatori che possiamo spingere verso il basso (ovvero, delegare al database sottostante) per le connessioni SQL Server, Postgres, MySQL, Snowflake, Redshift e Synapse. In pratica, ciò significherà query con latenza inferiore e creazione più rapida di Materialized View (MV), il tutto senza richiedere agli utenti di modificare le proprie query.
  2. Stabilità e osservabilità migliorate: Abbiamo aggiornato il nostro framework di federazione e pushdown per essere più resiliente e gestire scenari di errore senza influire sui carichi di lavoro degli utenti.
    Abbiamo anche introdotto Query Profile migliorati per supportare metadati e statistiche specifiche della federazione, offrendo agli amministratori modi migliori per monitorare e controllare.
  3. Nuove opzioni di sicurezza: A partire dalle origini dell'ecosistema Azure e Snowflake, stiamo aggiungendo il supporto per opzioni di autenticazione senza password, supporto Azure AD/Entra ID per Azure SQL e supporto OAuth per Snowflake. Nei prossimi mesi, svilupperemo funzionalità simili anche per gli ecosistemi AWS/Google.
"Lakehouse Federation ci ha aiutato a consolidare il nostro panorama dati con una governance coerente in un unico posto e a generare significativi guadagni di efficienza operativa. Le informazioni sui dati e la qualità sono ora integrate in modo fluido, permettendoci di concentrarci sull'offrire ai nostri clienti le migliori informazioni per massimizzare il valore dei loro investimenti pubblicitari." — Bob Wuisman, Global Head of Production presso Ebiquity plc.
GUIDA

La tua guida compatta all'analitica moderna

Cosa ci riserva il futuro?

Catalog Federation

Hive Federation
Catalog federation abilita funzionalità di Unity Catalog come maschere di colonna, commenti AI e lineage su tabelle Hive Metastore e Glue

Scopri, governa e accedi ai dati da Hive Metastore (HMS) e AWS Glue con Lakehouse Federation. Con Catalog Federation, sarai in grado di montare facilmente qualsiasi HMS esterno (o Databricks interno) come catalogo esterno in Unity Catalog.

Per gli utenti di Databricks HMS (interno), questo è un modo semplice e diretto per iniziare con Unity Catalog e beneficiare delle funzionalità di governance unificata fornite da Unity Catalog.

Per gli utenti di HMS esterni e AWS Glue, fornisce un modo strettamente integrato per accedere ai dati del metastore esterno direttamente da Unity Catalog senza modificare i flussi di lavoro. 

Catalog Federation è attualmente in Private Preview.

Nuovi Connettori

Espandere l'elenco delle origini dati supportate per Lakehouse Federation rimane una priorità assoluta nella nostra missione di aiutare i clienti a unificare i propri patrimoni di dati. Siamo entusiasti di annunciare che i connettori Google BigQuery, che completano il supporto per la federazione dei data warehouse tra i tre principali provider cloud, e Salesforce Data Cloud sono ora in Public Preview.

Lakehouse Federation Connections
Nuovi connettori Salesforce Data Cloud, Google Bigquery e Hive Metastore

I connettori Oracle e Teradata saranno disponibili presto in anteprima.

Connessioni Data Warehouse ad alto throughput

Per offrire un'esperienza di query più rapida sui data warehouse, che tendono a contenere tabelle più grandi, stiamo aggiungendo funzionalità per trasferimenti dati automatici ad alto throughput. 

In futuro, a partire dai connettori Amazon Redshift & Snowflake, potrai eseguire query e materializzare tabelle dai data warehouse rapidamente. Dietro le quinte, Lakehouse Federation sfrutterà API più veloci/bulk (ad es. offload su object storage o staging location in parallelo) e recupererà questi risultati in parallelo (nessun collo di bottiglia del driver). Tutto senza alcun intervento dell'utente!

Condivisione per Lakehouse Federation

Sharing for Lakehouse Federation

Infine, la condivisione dei dati di Lakehouse Federation diventerà molto più semplice. L'integrazione imminente di Delta Sharing consentirà ai clienti di condividere tabelle federate esternamente senza che i destinatari debbano accedere a Databricks o al sistema dati sottostante. Ciò semplificherà la condivisione dei dati eliminando la necessità di copie ridondanti tra sistemi diversi.

Inizia ora

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Non perdere mai un post di Databricks

Iscriviti al nostro blog e ricevi gli ultimi post direttamente nella tua casella di posta elettronica.