Passa al contenuto principale
Prodotto

Novità di Databricks SQL

Data warehousing più semplice, veloce e conveniente

di Gaurav Saraf e Kevin Clugage

Siamo entusiasti di condividere le ultime novità e i miglioramenti delle prestazioni che rendono Databricks SQL più semplice, veloce ed economico che mai. Con oltre 7.000 clienti che oggi utilizzano Databricks SQL come data warehouse, questo è diventato il prodotto con la crescita più rapida nella nostra storia!

Il miglior data warehouse è un lakehouse

Databricks SQL è basato sull'architettura lakehouse. Abbiamo aperto la strada a questo approccio all'inizio del 2020 e abbiamo lanciato Databricks SQL (DBSQL) come parte della Databricks Data Intelligence Platform. Avevamo previsto che i data warehouse standalone e separati sarebbero diventati sistemi legacy a causa dei loro costi elevati e della loro natura proprietaria, e oggi ne abbiamo una chiara dimostrazione: il report MIT Technology Insights mostra che il 74% delle aziende ha già adottato l'architettura lakehouse. Le numerose piattaforme dati basate su lakehouse disponibili per queste aziende sono state recentemente analizzate nel Forrester Wave per i Data Lakehouse, che ha riconosciuto Databricks come Leader con i punteggi più alti sia nella categoria dell'offerta attuale che in quella della strategia rispetto a tutti gli altri!

Data Warehouse

Nelle nostre conversazioni con i clienti, il vantaggio del lakehouse deriva da due fattori: il costo totale inferiore e un'unica piattaforma unificata per AI e BI. Il lakehouse consente di utilizzare un'unica copia dei dati, in un formato aperto, per tutti i carichi di lavoro di AI e BI. Ciò elimina la duplicazione e la replica dei dati necessarie per mantenere i dati sincronizzati tra più piattaforme, riducendo drasticamente i costi e semplificando l'architettura.

Prestazioni basate sull'AI: miglioramento di 4x

L'anno scorso abbiamo dichiarato che l'approccio classico alle prestazioni del sistema, basato su euristiche e ottimizzatori di costi, era errato nella maggior parte dei casi! Sebbene quelle tecniche fossero le migliori disponibili, l'era attuale dell'AI ha reso possibile un approccio completamente nuovo. Oggi utilizziamo una nuova generazione di sistemi di AI a tutti i livelli della nostra piattaforma, che hanno portato i miglioramenti delle prestazioni del sistema a un nuovo livello. Questi sistemi di AI analizzano i carichi di lavoro e migliorano l'efficienza e le prestazioni automaticamente.

  • Liquid Clustering, ora GA, gestisce il layout dei dati, scegliendo automaticamente la chiave di clustering e offrendo la flessibilità di ridefinire le chiavi di clustering senza riscritture dei dati! Ciò consente al layout dei dati di evolversi nel tempo insieme alle esigenze analitiche e sostituisce il partizionamento delle tabelle e ZORDER, eliminando la necessità di ottimizzare manualmente il layout dei dati.
  • Predictive I/O, noto anche come "Indexless Indexing", offre le prestazioni degli indici ma senza richiedere la creazione o la manutenzione degli stessi. Grazie ai progressi dei sistemi Databricks, ora siamo in grado di eseguire modelli e inserire vettori di feature con parametri di un ordine di grandezza superiore senza alcun aumento percepibile della latenza di previsione. Ciò consente a Predictive I/O di supportare un set di carichi di lavoro molto più ampio.
  • Intelligent Workload Management utilizza modelli di machine learning per ottimizzare le risorse dei SQL warehouse serverless per supportare al meglio la concorrenza elevata. Questo è perfetto per i carichi di lavoro di BI su larga scala, quando un gran numero di analisti e query mettono a dura prova il data warehouse. Intelligent Workload Management garantisce che questi carichi di lavoro ricevano rapidamente la giusta quantità di risorse.
  • Predictive Optimization, ora GA, gestisce automaticamente le tipiche operazioni di manutenzione delle tabelle che aiutano a ottimizzare le prestazioni. Databricks identificherà le tabelle che trarrebbero vantaggio dalle operazioni di manutenzione, come il clustering, la regolazione delle dimensioni dei file e la pulizia dei file (vacuuming), ed eseguirà semplicemente queste operazioni per te, senza richiedere attività manuali.

Questi sono solo alcuni dei nostri sistemi di AI integrati e la parte migliore è che non occorre conoscere i dettagli del loro funzionamento: la magia avviene in modo automatico. Considerato il tempo che dedichiamo a questo ambito, si può dire che siamo ossessionati dalle prestazioni, e nel tempo possiamo vedere quale differenza abbia fatto. Quando abbiamo analizzato i carichi di lavoro ripetitivi per i nostri clienti, le prestazioni per le stesse query BI sono migliorate del 73% rispetto a due anni fa! È 4 volte più veloce!

Prestazioni basate sull'AI

Assistente AI per analisti SQL

Abbiamo anche integrato l'AI nella nostra esperienza utente, rendendo Databricks SQL più facile da usare e più produttivo per gli analisti SQL. Databricks AI Assistant, ora generalmente disponibile, è un assistente AI integrato e sensibile al contesto che aiuta gli analisti SQL a creare, modificare ed eseguire il debug di codice SQL. Questo assistente è basato sullo stesso motore di data intelligence della nostra piattaforma, quindi comprende il contesto unico della tua attività. L'assistente ha registrato una rapida adozione in Databricks per la sua capacità di redigere query o correggere errori per gli analisti SQL, risparmiando innumerevoli ore di lavoro e aumentando la produttività.

Assistente AI per analisti SQL

Sfrutta i modelli di AI direttamente tramite SQL

Con l'ascesa dei modelli di GenAI e ML, non sorprende che gli analisti SQL desiderino accedere sempre più a questi modelli di AI direttamente all'interno di SQL. Abbiamo introdotto per la prima volta le funzioni AI in Databricks SQL l'anno scorso proprio per questo motivo, e da allora abbiamo assistito a una rapida adozione. Le funzioni AI sono ora in anteprima pubblica e abbiamo aggiunto anche nuove funzioni come la ricerca vettoriale (vector search). Le funzioni AI eliminano le complessità tecniche legate all'uso degli LLM, consentendo ad analisti e data scientist di utilizzare questi modelli senza sforzo, senza doversi preoccupare dell'infrastruttura sottostante.

  1. La funzione ai_query() consente di interrogare qualsiasi modello di AI da SQL. Può trattarsi di modelli GenAI o di modelli ML classici. Puoi persino utilizzare modelli LLM esterni

  2. Funzioni LLM integrate
    Ci sono anche 9 nuove funzioni GenAI che ti consentono di analizzare testo non strutturato con la potenza degli LLM. Ad esempio:

    Estrarre informazioni importanti dal testo presente nella colonna di una tabella:

    Classificare i commenti delle recensioni di un prodotto in base al contenuto:

    Vedi tutte le 9 funzioni qui

  3. AI Search: la nuova funzione di ricerca vettoriale (vector search) consente di eseguire ricerche KNN e abilita facilmente la RAG pronta all'uso! Questa funzione utilizza il prodotto AI Search di Databricks. Combinando le funzionalità di ricerca vettoriale e le funzionalità di AI_query, gli analisti SQL possono ora eseguire facilmente analisi complesse. Ad esempio, ora è possibile cercare in tutti i tweet

  4. AI_Forecast: una nuova funzione integrata di previsione delle serie temporali che consente di prevedere le metriche (ad es. i ricavi) rapidamente tramite SQL senza dover creare un modello ML personalizzato.

AI/BI: un nuovo tipo di prodotto di business intelligence (BI)

Con l'obiettivo di democratizzare realmente i canali di insight derivati dai dati, abbiamo anche introdotto Databricks AI/BI, un prodotto di business intelligence che sfrutta l'AI generativa per comprendere a fondo la semantica dei dati e consentire l'analisi self-service dei dati a chiunque nella tua organizzazione. Basato su un sistema AI composto, AI/BI sfrutta gli insight provenienti dall'intero patrimonio dati, inclusi i metadati di Unity Catalog, le pipeline ETL, le query SQL e altro ancora. Presenta due componenti principali: AI/BI Dashboards, un'offerta BI low-code per creare rapidamente visualizzazioni di dati e dashboard, e Genie, un'interfaccia conversazionale per i tuoi dati che apprende continuamente dai feedback degli utenti per rispondere a un'ampia gamma di domande aziendali reali senza allucinazioni. Queste innovazioni migliorano significativamente l'analisi self-service all'interno di Databricks SQL, abilitando una gamma più ampia di utenti non tecnici e garantendo al contempo governance unificata, tracciamento della lineage, condivisione sicura e prestazioni elevate grazie all'integrazione con la tua Data Intelligence Platform.

Data warehousing completo ed end-to-end con Databricks SQL

Oltre alle nuove funzionalità AI, abbiamo lanciato anche una serie di funzionalità core per SQL Warehouse. Migliaia di clienti hanno migrato i loro data warehouse legacy su DBSQL. Per rendere possibili queste migrazioni, ci siamo assicurati che DBSQL disponesse di tutte le funzionalità necessarie per offrire le stesse capacità di data warehouse sul lakehouse:

  1. Viste materializzate: garantisci la freschezza dei dati utilizzando le MV per alimentare le tue dashboard. Le viste materializzate si aggiornano automaticamente quando le tabelle sottostanti contengono dati freschi, anziché quando vengono interrogate.
  2. Usa i vincoli PK/FK per ottimizzare le prestazioni delle query. Utilizzando RELY, le query possono essere velocizzate eliminando automaticamente join ridondanti e aggregazioni distinte.
  3. Variant è un nuovo tipo di dati per l'elaborazione di dati semistrutturati che offre un notevole incremento delle prestazioni rispetto alla memorizzazione dei dati come stringhe JSON, pur offrendo la flessibilità necessaria per supportare schemi altamente annidati e in continua evoluzione.
  4. Gli alias di colonna laterali semplificano la scrittura di codice SQL consentendo di fare riferimento e riutilizzare un'espressione specificata in precedenza nella stessa query. Questo aiuta a semplificare le query riducendo le CTE o le sottoquery non necessarie.
  5. Funzionalità come le variabili SQL, gli argomenti denominati e le UDF Python rendono anche più semplice la creazione di script direttamente in Databricks SQL.

E non dimenticare: tutto questo funziona all'interno di un eccezionale editor SQL basato su AI e di uno strumento di dashboarding integrato.

Inoltre, grazie ai nostri straordinari partner, disponiamo anche di un ecosistema ricco, aperto e integrato dei tuoi strumenti di dati e AI preferiti, come Power BI, Tableau e dbt. È quasi certo che qualsiasi strumento tu stia utilizzando oggi funzioni già con DBSQL.

DBSQL

Scopri di più e inizia a usare Databricks SQL

Per saperne di più sulle ultime novità in materia di data warehousing e Databricks SQL, guarda il keynote sul Data Warehouse del Data + AI Summit, insieme alle numerose sessioni del percorso Data Warehousing, Analytics and BI.

Se desideri migrare il tuo warehouse esistente a un data warehouse serverless ad alte prestazioni, con un'esperienza utente eccezionale e costi complessivi inferiori, Databricks SQL è la soluzione ideale: provalo gratis.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.