Il lakehouse più performante ed economico è quello che si ottimizza da solo man mano che i volumi di dati, i modelli di query e l'utilizzo da parte dell'organizzazione continuano a evolversi. L'ottimizzazione predittiva (Predictive Optimization, PO) in Unity Catalog abilita questo comportamento analizzando continuamente come i dati vengono scritti e sottoposti a query, per poi applicare automaticamente le azioni di manutenzione appropriate senza richiedere lavoro manuale da parte degli utenti o dei team della piattaforma. Nel 2025, Predictive Optimization è passata da funzionalità di automazione opzionale a comportamento predefinito della piattaforma, gestendo le prestazioni e l'efficienza di archiviazione su milioni di tabelle di produzione ed eliminando al contempo l'onere operativo tradizionalmente associato all'ottimizzazione delle tabelle. Ecco una panoramica delle tappe fondamentali che ci hanno portato fin qui e delle novità in arrivo nel 2026.
Nel corso del 2025, l'ottimizzazione predittiva (Predictive Optimization) ha visto una rapida adozione sulla Databricks Platform, poiché i clienti si sono affidati sempre più alla manutenzione autonoma per gestire un patrimonio di dati in crescita. Predictive Optimization è cresciuta rapidamente quest'ultimo anno:
Sulla base dei costanti miglioramenti delle prestazioni osservati su questa scala, Predictive Optimization è ora abilitata per impostazione predefinita per tutte le nuove tabelle, aree di lavoro e account gestiti di Unity Catalog.
L'ottimizzazione predittiva (PO) funziona come il livello di intelligence della piattaforma per il lakehouse, ottimizzando continuamente il layout dei dati, riducendo l'ingombro di archiviazione e mantenendo le statistiche precise sui file necessarie per una pianificazione efficiente delle query su tabelle gestite da UC.
In base ai modelli di utilizzo osservati, la PO determina automaticamente quando e come eseguire comandi come:
Tutte le decisioni di ottimizzazione sono basate sul carico di lavoro e adattive, eliminando la necessità di gestire pianificazioni, ottimizzare parametri o rivedere le strategie di ottimizzazione al variare dei modelli di query.
Statistiche accurate sono fondamentali per costruire piani di query efficienti, tuttavia la gestione manuale delle statistiche diventa sempre più impraticabile con l'aumentare del volume dei dati e della diversità delle query.
Con Statistiche automatiche (ora disponibile a livello generale), Predictive Optimization determina quali colonne sono importanti in base al comportamento delle query osservato e garantisce che le statistiche rimangano aggiornate senza comandi ANALYZE manuali.
Le statistiche vengono mantenute tramite due meccanismi complementari:
Nei carichi di lavoro di produzione reali dei clienti, questo approccio ha fornito query fino al ventidue percento più veloci, eliminando al contempo il costo operativo della gestione manuale delle statistiche.
VACUUM svolge un ruolo fondamentale nella gestione dei costi di archiviazione e della conformità, eliminando i file di dati non referenziati. Il vacuum standard richiede l'elenco di tutti i file nella directory di una tabella per identificare i candidati alla rimozione, un'operazione che può richiedere più di 40 minuti per tabelle con 10 milioni di file.
Predictive Optimization ora applica un percorso di esecuzione VACUUM ottimizzato che sfrutta il log delle transazioni Delta per identificare direttamente i file rimovibili, evitando le costose operazioni di listing delle directory ove possibile.
Su larga scala, ciò ha comportato:
Il motore determina dinamicamente quando utilizzare questo approccio basato su log e quando eseguire una scansione completa della directory per ripulire i frammenti delle transazioni interrotte.
Clustering liquido automatico ha raggiunto la disponibilità generale nel 2025 e sta già ottimizzando milioni di tabelle in produzione.
Il processo è interamente guidato dal carico di lavoro:
Ottieni query più veloci senza alcuna ottimizzazione manuale. Analizzando automaticamente i carichi di lavoro e applicando il layout dei dati ottimale, PO elimina il complesso compito della selezione della chiave di cluster e garantisce che le tabelle rimangano altamente performanti man mano che i pattern di query si evolvono.
Predictive Optimization si è espansa oltre le tabelle tradizionali per supportare un insieme più ampio della Databricks Platform.
Ciò garantisce la manutenzione autonoma su tutto il patrimonio di dati anziché l'ottimizzazione isolata delle singole tabelle.
Ci impegniamo a fornire funzionalità che sostituiscono l'ottimizzazione manuale delle tabelle con la manutenzione automatizzata. In parallelo, stiamo pianificando di estenderci oltre l'integrità delle tabelle fisiche per affrontare l'intelligenza totale del ciclo di vita dei dati, ovvero risparmi automatizzati sui costi di archiviazione, gestione del ciclo di vita dei dati ed eliminazione delle righe. Stiamo anche dando priorità all'osservabilità avanzata, integrando le informazioni dettagliate dell'ottimizzazione predittiva nelle attività operative comuni sulle tabelle e nel Governance Hub per fornire una visibilità più chiara sulle attività operative di PO e sul loro ROI.
La gestione della conservazione dei dati o il controllo dei costi di archiviazione è un'attività fondamentale, ma spesso manuale. Siamo entusiasti di presentare Auto-TTL, una nuova funzionalità di Predictive Optimization che automatizza completamente l'eliminazione delle righe. Utilizzando questa funzionalità, sarà possibile impostare una semplice policy time-to-live direttamente su qualsiasi tabella gestita da UC utilizzando un comando come:
Una volta impostata la policy, Predictive Optimization si occupa del resto. Automatizza l'intero processo in due passaggi, eseguendo prima un'operazione DELETE per l'eliminazione temporanea (soft-delete) delle righe scadute, e poi un'operazione VACUUM per rimuoverle definitivamente dallo storage fisico.
Contatta oggi stesso il tuo team account per provare questa funzionalità in anteprima privata!
Migliorata osservabilità dell'ottimizzazione predittiva
Sarà possibile monitorare l'impatto diretto e il ROI di Predictive Optimization nel nuovo Hub di governance dei dati. Questa dashboard di osservabilità offrirà nativamente una vista centralizzata sulle attività operative di PO, mostrando le metriche chiave che ne quantificano il valore.
Utilizzala per vedere esattamente cosa sta facendo PO dietro le quinte, con visualizzazioni chiare per byte compattati, byte raggruppati da Liquid, byte sottoposti a vacuum e byte analizzati. Ma soprattutto, l'hub traduce queste azioni in valore aziendale diretto mostrando i risparmi stimati sui costi di archiviazione. In questo modo sarà più facile che mai comprendere e comunicare l'impatto positivo di PO sia sui costi di archiviazione che sulle prestazioni delle query.
In DESCRIBE EXTENDED, sarà anche possibile visualizzare i motivi per cui Predictive Optimization ha saltato l'ottimizzazione (ad es. tabella già ben clusterizzata, tabella troppo piccola per beneficiare della compattazione, ecc.).
Inoltre, abbiamo aggiunto la possibilità di visualizzare le selezioni delle colonne per il data skipping e Auto Liquid nella tabella di sistema PO.
Contatta il team del tuo account oggi stesso per provare la governance dei dati Hub in anteprima privata!
Migliore osservabilità dello storage a livello di tabella
Per offrire maggiore chiarezza sull'impronta di storage, introdurremo funzionalità di osservabilità avanzate per Predictive Optimization. Potrai monitorare lo stato di integrità e l'evoluzione delle tue tabelle attraverso metriche di alto livello come il conteggio dei file e la crescita dello spazio di archiviazione. Rendendo queste informazioni dettagliate direttamente disponibili, stiamo rendendo più semplice visualizzare l'impatto della manutenzione automatizzata e identificare nuove opportunità per ridurre i costi e ottimizzare il tuo data estate.
Predictive Optimization è disponibile da oggi per le tabelle gestite di Unity Catalog ed è abilitato per impostazione default per i nuovi carichi di lavoro.
Se abilitato, i clienti beneficiano automaticamente di un'esecuzione di VACUUM più rapida, di Automatic Statistics in grado di riconoscere il carico di lavoro e di un layout dei dati autonomo tramite Automatic Liquid Clustering.
Puoi anche esplorare l'osservabilità di Auto TTL e Predictive Optimization (Hub di governance dei dati) tramite l'anteprima privata contattando il tuo team account.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Produto
12 giugno 2024/11 min di lettura

