I dati sono una delle risorse più preziose di un'azienda, ma il loro valore è legato a quanto bene un'azienda può sfruttarli per prendere decisioni aziendali che generano impatto e ricavi. I data silos impediscono alle aziende di avere una visione completa dei propri dati e queste lacune possono influire sulla capacità di un leader di prendere decisioni basate sui dati.
Il nome “silo” può evocare immagini di silos in una fattoria, dove diversi cereali vengono conservati in contenitori separati. I data silos si riferiscono a questa stessa separazione dei dati all'interno delle aziende. Diversi team spesso raccolgono, gestiscono e archiviano i propri dati separatamente l'uno dall'altro, con accesso limitato a coloro che fanno parte di determinati gruppi. A volte la separazione è progettata attorno a unità di prodotto o funzioni lavorative, ma a volte i data silos vengono creati attraverso acquisizioni.
In molte organizzazioni, i dati sono isolati per tipo. In questo caso, i dati strutturati vengono archiviati in più data warehouse, sia on-premise che nel cloud. Nel frattempo, i dati non strutturati e in streaming vengono archiviati separatamente in un data lake. Questa separazione complica la gestione dei dati e limita il valore che le organizzazioni possono estrarre dai propri dati.
I data silos sono un problema perché ostacolano la visibilità e l'accesso ai dati, aumentano l'inefficienza e i costi, ostacolano una governance efficace e portano le organizzazioni a lasciare importanti insight sul tavolo.
Quando i dati di un'azienda sono distribuiti su più sistemi indipendenti controllati da gruppi separati, accedere a tutti i dati è difficile, se non impossibile. Anche l'analisi dei dati aggregati è difficile. I team spesso lottano con dati duplicati difficili da riconciliare o dati mancanti che lasciano lacune. E avere dati strutturati e non strutturati archiviati in luoghi diversi rende difficile implementare funzionalità avanzate di machine learning e iniziative GenAI. Le organizzazioni necessitano anche di modelli di governance multipli per gestire i dati isolati, aumentando i rischi di sicurezza e conformità.
La rimozione dei data silos aiuta i leader a ottenere una visione completa dell'azienda, a ridurre la duplicazione e l'inefficienza, a semplificare la governance e a sfruttare appieno le capacità dell'IA per prendere decisioni basate sui dati.
Passare da un'architettura tradizionale con data silos a un moderno data lakehouse offre alle aziende visibilità sui propri dati e può anche ridurre i costi. Quando i dati sono isolati in più team, ogni team deve sostenere il costo dell'infrastruttura e del personale IT per supportare le proprie esigenze di dati uniche. La centralizzazione dei dati consente alle aziende di consolidare il proprio stack tecnologico e ridurre i costi di amministrazione e manutenzione.
Le moderne architetture dati, come il data lakehouse, offrono maggiore flessibilità e scalabilità per aiutare le aziende a controllare i costi di calcolo. Eseguire la preparazione dei dati e l'analisi ad hoc in una soluzione cloud come Databricks, che scala dinamicamente in base ai cluster di calcolo necessari, garantisce che le aziende non paghino per risorse di calcolo inutilizzate. Ad esempio, il passaggio a Delta Lake e Databricks ha aiutato Relogix a ridurre i propri costi infrastrutturali dell'80%.
I data silos spesso assomigliano agli organigrammi aziendali, con i data silos creati spesso quando i dati vengono separati da diverse unità aziendali o gruppi di prodotto. Questa separazione può essere rafforzata da approcci contrastanti alla gestione dei dati o dal desiderio di mantenere riservati determinati dati. Tuttavia, la riservatezza dei dati è meglio ottenuta attraverso controlli di accesso adeguati. I dati potrebbero anche essere isolati in base al tipo di lavoro, poiché discipline come ingegneria, marketing e finanza hanno esigenze e priorità di dati diverse.
Alcuni team semplicemente non comunicano abbastanza tra loro da rendersi conto che stanno duplicando gli sforzi. La mancanza di comunicazione può anche comportare che i team non siano a conoscenza delle esigenze degli altri team e non si rendano conto di avere dati che un altro team potrebbe trarre beneficio dal vedere. Man mano che i team sviluppano indipendentemente i propri approcci alla gestione e alla raccolta dei dati, i silos crescono solo, e archiviando i dati in modo indipendente, sviluppano inavvertitamente sistemi non compatibili che rendono difficile la condivisione dei dati.
Non solo i data silos rispecchiano i silos organizzativi, ma tutti quei dati sono spesso archiviati in modo isolato per tipo. Mentre i dati strutturati sono archiviati in più data warehouse on-premise e cloud, i dati non strutturati utilizzati per l'IA sono archiviati nei data lake. Ognuno di questi modelli architetturali richiede un proprio modello di governance, limitando la capacità di un'organizzazione di accedere in modo sicuro ai propri dati e utilizzarli per insight di IA che guidano il vantaggio competitivo.
I data silos vengono spesso identificati organicamente attraverso casi d'uso che emergono nelle operazioni aziendali quotidiane. I team si rendono conto di non avere accesso o di non riuscire a trovare determinati dati. I dipendenti possono lamentarsi del tempo e dello sforzo manuale necessari per compilare i report. I leader possono ricevere report simili da team diversi che presentano discrepanze, duplicazioni o lacune. I team potrebbero iniziare ad archiviare e tracciare i dati al di fuori degli strumenti dati tipici per avere maggiore controllo o accesso più rapido ai propri dati, portando a copie duplicate e offline dei dati.
Le aziende possono identificare proattivamente i data silos eseguendo audit dei dati. Tracciare e documentare attentamente varie fonti di dati in tutta l'azienda fornisce ai leader una chiara comprensione della loro situazione di gestione e archiviazione dei dati. Possono usarlo come punto di partenza per pianificare la transizione verso un modello dati centralizzato. Una volta rimossi i silos e implementata un'architettura centralizzata, è possibile eseguire audit dati più piccoli regolarmente per rilevare eventuali nuovi silos e riportarli rapidamente nel repository dati centrale.
Una volta identificati i data silos, un'azienda può iniziare a intraprendere passi per abbatterli e passare a una soluzione di archiviazione condivisa centralizzata.
Le soluzioni di archiviazione cloud forniscono un modo scalabile per archiviare dati centralizzati in un'unica posizione, ma le soluzioni cloud tradizionali come Amazon e Azure diventano spesso un "data dump" – una posizione condivisa per inserire dati senza una struttura organizzativa o una comprensione condivisa di come dovrebbe essere utilizzata l'archiviazione condivisa.
I Cloud Data Warehouse portano un ulteriore livello di ordine e comprensione attraverso definizioni di schema. Con schemi definiti, i dati possono essere classificati e organizzati per consentire maggiori insight analitici. Tuttavia, definire e mantenere questi schemi può richiedere molto tempo ed è difficile supportare tutti i tipi di dati richiesti dal tuo business in un unico schema.
I Data lake sono più flessibili dei data warehouse perché non richiedono uno schema dati e possono supportare tutti i tipi di dati, inclusi dati non strutturati e semi-strutturati come immagini, video, audio e documenti. Questa flessibilità rende facile per i team spostarsi in un'unica posizione di archiviazione centrale senza dover alterare significativamente le proprie pratiche di gestione dei dati. I Data lake consentono anche l'analisi su vari formati e consentono agli utenti di affrontare le preoccupazioni sui costi e sul vendor lock-in dei data warehouse.
I Data lake hanno permesso ad alcune aziende di passare da costosi software proprietari di data warehouse a data lake. I Data lake hanno anche permesso alle aziende di analizzare enormi quantità di dati non strutturati in un modo che non era possibile con i data warehouse e hanno anche consentito il machine learning.
Tuttavia, i data lake non supportano le transazioni e mancano delle funzionalità di sicurezza richieste da molte aziende. Possono anche riscontrare problemi di prestazioni all'aumentare dei dati. Mentre i data warehouse sono più affidabili in queste aree di funzionalità, supportano solo dati strutturati e non sono disponibili in formati aperti come data lake e data lakehouse.
Un data lakehouse combina la scalabilità e la flessibilità dei data lake con il supporto transazionale e la governance dei data warehouse, abilitando scenari avanzati di IA e analytics che abbattono veramente i data silos. Un data lakehouse consente agli utenti di fare tutto, dal BI, analytics SQL, data science e IA su un'unica piattaforma. Il lakehouse adotta un approccio opinionato alla costruzione di data lake aggiungendo attributi di data warehousing – affidabilità, prestazioni e qualità, pur mantenendo l'apertura e la scalabilità dei data lake.
I Lakehouse sono costruiti su formati di tabella open source, come Delta Lake o Apache Iceberg. Ciò consente ai team di archiviare dati strutturati, semi-strutturati e non strutturati in un data lake, utilizzando un formato portatile che previene il vendor lock-in. Questi formati offrono transazioni conformi ad ACID, applicazione dello schema e validazione dei dati.
Una delle sfide chiave che le organizzazioni devono affrontare nell'adottare l'open data lakehouse è la selezione del formato ottimale per i propri dati. Qualsiasi formato aperto è meglio che inserire i propri dati in un formato proprietario. Tuttavia, scegliere un singolo formato di archiviazione su cui standardizzare può essere un compito arduo, che può portare a decisioni affrettate e alla paura di conseguenze irreversibili.
Delta UniForm (abbreviazione di Delta Lake Universal Format) offre un'unificazione semplice, facile da implementare e trasparente dei formati delle tabelle senza creare copie di dati aggiuntive o silos. Con UniForm, le tabelle Delta Lake possono essere lette come tabelle Iceberg, consentendo di utilizzare qualsiasi motore di calcolo che funzioni con gli ecosistemi Delta Lake o Iceberg.
Un'altra sfida creata dai silos di dati è la collaborazione limitata, sia interna che esterna, che ostacola il flusso di informazioni e innovazione. Abbattendo questi silos e stabilendo una fonte di verità unificata tra data lake, database, data warehouse e cataloghi, le organizzazioni possono facilitare l'accesso trasparente a dati e asset di intelligenza artificiale da qualsiasi motore di calcolo o strumento utilizzando API aperte. È qui che entra in gioco Databricks Unity Catalog, l'unica soluzione di governance unificata e aperta del settore per dati e intelligenza artificiale.
Con Unity Catalog, le organizzazioni possono governare in modo trasparente dati e asset di intelligenza artificiale, inclusi dati strutturati e non strutturati, modelli di intelligenza artificiale e file, su qualsiasi cloud o piattaforma. Abilita la scoperta, l'accesso e la collaborazione sicuri per data scientist, analisti e ingegneri, aumentando la produttività attraverso l'intelligenza artificiale. Promuovendo l'interoperabilità e accelerando le iniziative sui dati, Unity Catalog semplifica la conformità e favorisce la collaborazione su larga scala, evitando al contempo il vendor lock-in.
I processi Extract, Transform and Load (ETL) aiutano i team a standardizzare e condividere i dati. Gli strumenti ETL possono essere sfruttati per spostare i dati dai silos esistenti in una posizione centralizzata come un data lakehouse. Gli ingegneri possono creare pipeline ETL per gestire l'ingestione continua in tempo reale e mantenere il controllo di qualità sui dati che entrano nello storage centrale condiviso.
Abbattare i silos di dati e impedirne la ricorrenza richiede anche un cambiamento culturale e un'attenta pianificazione su come migrare sistemi e processi per utilizzare uno storage dati centralizzato. Comprendere quali lacune o sfide tecniche impediscono ai team di adottare una nuova soluzione di storage dati è fondamentale per coinvolgere tutti e informerà le decisioni di gestione del cambiamento. Idealmente, i nuovi processi saranno anche scalabili e flessibili, in grado di adattarsi all'evolversi dei requisiti aziendali e delle esigenze dei dati.
L'implementazione di ulteriori criteri di governance e gestione dei dati aiuterà a prevenire la creazione di nuovi silos di dati in futuro. Una documentazione chiara su criteri, standard e procedure è essenziale affinché i team adottino e continuino a gestire i propri dati all'interno di uno storage centrale condiviso. Condurre audit regolari sui dati può identificare rapidamente lacune nei processi o aree dell'azienda che non hanno effettuato il cambiamento culturale.
Avere il supporto della dirigenza e ottenere il consenso del management sono fondamentali per realizzare un cambiamento culturale. Articolare benefici chiari, sia a breve che a lungo termine, aiuterà a ottenere supporto per un cambiamento più ampio. Mappare le attività dati correnti che diventeranno più semplici o meno costose ed evidenziare quali nuove capacità le architetture moderne abilitano.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
