Passa al contenuto principale
Prodotto

Parla con tutti i tuoi dati, ovunque si trovino

Connetti Genie a sorgenti di dati federate per portare l'intelligence su tutto il tuo patrimonio di dati

di John Spencer

*Connetti Genie ai dati utilizzando Lakehouse Federation, evitando i ritardi di una migrazione "big bang".
*Sfrutta Unity Catalog come unica fonte di verità sia per i dati federati che per quelli gestiti, garantendo che i carichi di lavoro AI siano sicuri e pronti per la produzione.
*Inizia subito a interrogare i dati in linguaggio naturale. Ottimizza le prestazioni passando alle tabelle gestite di Unity Catalog.

L'AI agentica ha creato una domanda di ragionamento cross-source che non esisteva 12 mesi fa. Gli utenti aziendali vogliono porre domande in linguaggio naturale come "quali campagne di marketing hanno generato il ROI più elevato nell'ultimo trimestre?" e ottenere insight istantanei dai loro dati.

Il problema è che i dati aziendali sono spesso distribuiti su più sistemi come AWS Glue, Snowflake, Oracle, BigQuery, Postgres e a volte bloccati in formati proprietari legacy, dove migrare tutto su un unico sistema potrebbe richiedere mesi.

E se non dovessi migrare i dati e potessi comunque analizzare l'intero patrimonio di dati? Con Lakehouse Federation, Databricks si connette direttamente alle tue fonti esistenti, ovunque si trovino, e le inserisce sotto un unico livello di governance in Unity Catalog. Autorizzazioni, lineage e controlli di accesso funzionano in modo coerente su ogni sistema connesso, offrendoti una sicurezza di livello enterprise senza doverla ricostruire fonte per fonte. Gli utenti aziendali possono quindi interrogare i dati unificati in linguaggio naturale tramite Genie, ottenendo risposte che spaziano su ogni piattaforma connessa senza una singola pipeline, copia o passaggio di migrazione.

In questo blog vedremo come configurarlo connettendoci a una fonte esterna, sincronizzando i suoi metadati in Unity Catalog e ponendo domande tramite Genie, il tutto in pochi minuti.

Come funziona

Lakehouse Federation consente agli utenti e agli agenti AI di connettersi in modo sicuro a una fonte esterna e di gestirla insieme ai dati nativi. Ciò consente a Genie di accedere al tuo patrimonio di dati esteso al volo, senza richiedere una migrazione. Lakehouse Federation si connette a oltre 20 delle piattaforme dati più diffuse. Come esempio, vediamo com'è facile configurarlo con AWS Glue.

Genie su tutti i tuoi dati

1. Connettiti alle tue fonti di dati esterne con Lakehouse Federation

Innanzitutto, creiamo una connessione al progetto AWS Glue esterno. In questo esempio, ci connettiamo a un database Glue contenente i dati delle campagne di marketing.

Successivamente, sincronizziamo i dati in-place in Unity Catalog. Questo fornisce l'accesso a tutte le tabelle senza dover copiare alcun dato, garantendo che i dati siano sempre aggiornati. Inoltre, evita qualsiasi interruzione del sistema di origine.

2. Sfrutta i tuoi metadati esistenti

I nomi non elaborati di tabelle e colonne sono spesso privi di significato per un agente AI. Un agente AI non saprà intrinsecamente che status_code 4 significa "Urgente" o che spend_amount si riferisce ai costi di marketing.

Molte organizzazioni hanno già investito nella documentazione dei propri schemi nel sistema di origine, aggiungendo descrizioni delle tabelle, commenti alle colonne e termini del glossario aziendale direttamente in Glue. Lakehouse Federation ora trasferisce automaticamente questo contesto. Quando crei un catalogo esterno, i commenti e le descrizioni del sistema di origine vengono federati in Unity Catalog insieme ai metadati della tabella.

Questo significa che:

  • Le descrizioni delle colonne esistenti (ad es. "spend_amount — spesa di marketing totale in USD") vengono trasferite senza reinserimento manuale
  • I commenti a livello di tabella che documentano il contesto aziendale vengono preservati
  • Gli strumenti di AI come Genie possono sfruttare immediatamente questi metadati per comprendere il tuo schema

Oggi supportiamo i commenti sulle tabelle esterne su Glue e BigQuery. In anteprima, abbiamo esteso il supporto per PostgreSQL, Redshift, MySQL, Snowflake e prevediamo di aggiungere altre fonti ogni mese (Iscriviti all'anteprima).

3. Definisci semantiche riutilizzabili sopra i tuoi dati federati

I commenti ereditati dicono a Genie cosa sono i tuoi dati, ma non possono catturare il modo in cui la tua azienda misura le cose. Il commento di una colonna può spiegare che spend_amount è il costo di marketing in USD, ma solo la definizione di una metrica può codificare che il ROI è dato dalle impression divise per la spesa. Questa è logica aziendale, e storicamente è vissuta in formule di dashboard sparse, SQL ad hoc e conoscenza tribale, spesso con definizioni leggermente diverse tra i vari team.

Con Unity Catalog Semantics puoi definire questa logica aziendale una sola volta come oggetto governato, in modo che ogni strumento che la interroga ottenga lo stesso calcolo affidabile. E poiché le tabelle federate sono cittadini di prima classe in Unity Catalog, questo funziona su dati che non hanno mai lasciato il loro sistema di origine. Puoi definire metriche come il ROI direttamente su qualsiasi fonte federata, senza alcuna migrazione richiesta.

Con le metriche di Unity Catalog, le definisci una sola volta, direttamente sulla tabella federata. La vista delle metriche definisce due cose: campi come campaign_id e quarter in base ai quali gli utenti possono raggruppare e filtrare, e una misura, roi, che codifica la formula aziendale stessa.

Definisci il ROI una sola volta e Genie, le dashboard AI/BI e i notebook lo calcoleranno tutti allo stesso modo. Quando la definizione cambia, la aggiorni in un solo punto e ogni consumatore eredita la modifica.

4. Chiedi a Genie

Con i dati connessi e contestualizzati, il tuo analista di marketing può ora aprire una stanza Genie e porre la domanda da cui siamo partiti: "Quali campagne di marketing hanno generato il ROI più elevato nell'ultimo trimestre?"

Genie non deve ricostruire la formula del ROI da zero: si risolve nella misura certificata roi nella vista delle metriche e genera automaticamente l'SQL corretto rispetto ai dati federati.

Il risultato? Una risposta immediata e accurata derivata dai dati in tempo reale presenti in Glue.

Genie, supportato da Lakehouse Federation, è solo un esempio di come Unity Catalog consenta di ottenere insight basati sull'AI nell'intero patrimonio di dati. Sia che la query provenga da un analista aziendale in una stanza Genie o da un flusso di lavoro basato su agenti, Unity Catalog fornisce la base governata e contestualizzata che ne consente il funzionamento.

Novità in arrivo

Continuiamo a investire per rendere Lakehouse Federation la rampa di accesso più rapida alla piattaforma Databricks:

  • Semantica aziendale più ricca per le tabelle federate: Oltre a importare i commenti esistenti, stiamo sviluppando nuovi modi per arricchire i metadati federati con descrizioni basate sull'AI e contesto aziendale, rendendo Genie ancora più intelligente fin da subito.
  • Prestazioni migliorate grazie all'aggiornamento alle tabelle gestite: utilizza la funzionalità SET MANAGED per convertire una tabella esterna in una tabella gestita di Unity Catalog in Databricks e beneficiare di un risparmio sui costi superiore al 50% e query fino a 20 volte più veloci.
  • Supporto della federazione per più cataloghi e piattaforme: Continuiamo ad aggiungere nuove fonti di federazione, offrendoti un accesso governato a una parte ancora più ampia del tuo patrimonio di dati.

Inizia subito

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.