Passa al contenuto principale

Lo Stack Dati Moderno: Come l'evoluzione dell'architettura dati ha portato alla Piattaforma di Intelligenza Dati

The Modern Data Stack: How The Evolution of Data Architecture Led to The Data Intelligence Platform

Pubblicato: 1 maggio 2024

Leader dei dati15 min di lettura

Lo stack dati moderno è progettato per affrontare le difficoltà di raccolta, archiviazione e analisi dei dati, poiché il volume e la complessità dei dati continuano ad aumentare. Poiché il successo aziendale dipende sempre più da insight basati sui dati e dall'IA, una gestione dei dati efficace e affidabile è essenziale.

Quindi, cos'è uno stack dati moderno e come è progettato per ottimizzare l'uso dei dati? Continua a leggere per comprendere le differenze tra gli stack dati moderni e i loro predecessori legacy, i vantaggi che possono apportare alle aziende di ogni settore e gli strumenti dello stack dati moderno necessari per ottenere successo dai tuoi dati. Per scoprire come accelerare i tuoi obiettivi di dati e IA, leggi la nostra nuova guida per dirigenti qui.

Accelerate Your Data and AI Transformation

Qual è il significato del termine stack dati moderno?

Il termine 'stack dati' si riferisce a una raccolta di diverse tecnologie che elaborano dati grezzi. Uno stack dati moderno è composto da strumenti utilizzati per acquisire, organizzare, archiviare e trasformare i dati.

Questi strumenti sono essenziali per trasformare i dati da 'dati non utilizzabili' (dati con cui non si può lavorare) a 'dati utilizzabili' (dati con cui si può lavorare). Più velocemente i dati possono essere accessibili, preparati e analizzati, più velocemente le organizzazioni possono utilizzarli per prendere decisioni. Un'architettura di stack dati moderno efficace è quindi cruciale per qualsiasi organizzazione che spera di estrarre valore dai propri dati e reagire più rapidamente ai cambiamenti.

Uno stack dati moderno ha quattro funzioni principali:

1. Caricamento

Le tecnologie di caricamento sono responsabili dello spostamento dei dati da una posizione all'altra. Ad esempio, i dati devono essere acquisiti in una pipeline dati per poter essere trasformati in uno stato utilizzabile e analizzati per ottenere insight preziosi.

2. Archiviazione

Una volta che i dati sono stati acquisiti tramite una pipeline dati, devono essere archiviati da qualche parte. I data warehouse e i data lake sono due tecnologie di archiviazione dati comunemente utilizzate, tuttavia, entrambe presentano determinati svantaggi. Una differenza è che i data warehouse sono più adatti all'archiviazione di dati strutturati, mentre i data lake sono migliori per i dati non strutturati.

Le piattaforme data lakehouse forniscono una soluzione moderna in grado di gestire meglio molti tipi diversi di dati strutturati e non strutturati.

Le soluzioni di archiviazione dati basate su cloud, piuttosto che le opzioni on-premise, sono essenziali per gli stack dati moderni. Forniscono un facile accesso ai dati in piattaforme altamente scalabili che possono adattarsi facilmente alle esigenze in evoluzione.

3. Trasformazione

Gli stack dati moderni vengono utilizzati anche per trasformare i dati. Il processo di trasformazione trasforma i dati 'grezzi' in dati 'raffinati' adatti ai casi d'uso di analisi. Molte organizzazioni utilizzeranno una piattaforma di preparazione dati per la trasformazione dei dati.

La trasformazione dei dati può comportare la conversione dei dati da un formato, una struttura o un sistema di valori a un altro. È un processo essenziale per l'analisi dei dati e il processo decisionale basato sui dati.

Esiste una vasta gamma di trasformazioni dati che possono essere applicate ai dati, tra cui:

  • Normalizzazione - aggiustamento dei valori in un set di dati a una scala comune
  • Pulizia dei dati - correzione o rimozione di record inaccurati o duplicati da un set di dati per migliorare l'accuratezza complessiva dei dati
  • Filtraggio - rimozione di dati irrilevanti e non necessari
  • Aggregazione - riassunto o raggruppamento dei dati
  • Unione - combinazione di dati da diverse origini per creare un singolo set di dati

4. Analisi

Una volta che i dati sono stati raccolti e preparati, sono pronti per essere utilizzati per l'analisi. Gli strumenti dello stack dati moderno possono gestire anche questo passaggio.

I dati possono essere analizzati utilizzando modelli di machine learning (ML) per identificare pattern e trend che possono essere utilizzati per la pianificazione e il processo decisionale. In alternativa, i dati elaborati possono essere utilizzati come base per una varietà di applicazioni.

Stack dati legacy

La chiave per comprendere l'impatto e l'importanza dello stack dati moderno è guardare indietro agli stack dati legacy. Gli stack dati precedenti hanno aperto la strada agli strumenti e alle tecnologie utilizzate oggi, ma presentavano limitazioni significative che gli stack dati moderni sono progettati per superare.

Data warehouse aziendali

I data warehouse aziendali (EDW) sono stati probabilmente i primi stack dati ad essere comunemente utilizzati dalle organizzazioni per la gestione dei dati.

Forniscono un repository centralizzato per i dati accumulati da varie origini. Questo li rende utili per le organizzazioni che utilizzano piattaforme di gestione delle relazioni con i clienti (CRM), database relazionali o sistemi simili che accumulano grandi quantità di dati.

Un EDW si basa tipicamente su un meccanismo ETL (extract, transform, load) per gestire i dati. In questi casi, i dati vengono controllati rispetto a uno schema predefinito (formato database interno) al momento del caricamento, noto come approccio schema-on-write.

Sebbene gli EDW abbiano indubbiamente svolto un ruolo nello snellimento della gestione e dell'analisi dei dati, sono diventati in qualche modo obsoleti con il crescente spostamento verso casi d'uso di intelligenza artificiale (IA) e ML.

Ciò è in gran parte dovuto al fatto che i data warehouse faticano a gestire le grandi quantità di dati necessarie per questi casi d'uso. Man mano che la quantità di dati archiviati al loro interno cresce, aumentano anche i costi dei data warehouse e la loro inefficienza.

Inoltre, i data warehouse non possono gestire dati non strutturati, come audio, video, documenti di testo o post sui social media, tutti i quali sono diventati informazioni vitali per molte aziende. Inoltre, la struttura dell'EDW è solitamente progettata per archiviare dati specifici per attività. Questo li rende inadatti per attività di ML e data science, che si basano sulla disponibilità di tutti i dati raccolti.

Data lake

I data lake sono stati sviluppati in parte in risposta alle inadeguatezze dei data warehouse per attività di IA e ML. Questi repository sono progettati per archiviare enormi quantità di dati grezzi nei loro formati nativi. Poiché sono in grado di gestire dati strutturati, non strutturati e semi-strutturati, sono più adatti per casi d'uso di ML e data science rispetto agli EDW.

A differenza dei data warehouse, i data lake non richiedono la trasformazione dei dati prima del caricamento, poiché non c'è alcuno schema a cui i dati debbano adattarsi. Lo schema viene invece verificato quando i dati vengono interrogati, noto come approccio schema-on-read.

Per questo motivo, i data lake sono generalmente considerati più robusti ed economici rispetto ai data warehouse tradizionali. Tuttavia, ciò non significa che non presentino altre limitazioni.

La business intelligence e il reporting possono essere impegnativi quando si utilizzano i data lake, poiché richiedono strumenti e tecniche aggiuntivi per supportare le query SQL.

Poiché i data lake archiviano grandi quantità di dati in tipi e formati diversi, anche la scarsa qualità, affidabilità e integrità dei dati sono spesso un problema. I dati archiviati nei lake possono facilmente finire disorganizzati, portando a ulteriori problemi di accuratezza, sicurezza e governance dei dati.

Cosa c'è di diverso nello stack dati moderno?

Poiché sia i data lake che i data warehouse presentano delle lacune in aree chiave, molte organizzazioni si ritrovano a utilizzarli entrambi per evitare i rispettivi punti deboli. Ad esempio, un'azienda potrebbe utilizzare un unico grande data lake per archiviare i propri dati non strutturati e più data warehouse specifici per determinati casi d'uso.

Nella maggior parte dei casi, ciò si traduce in silos di dati, aumento dei costi e della complessità, con la necessità di mantenere i dati coerenti tra i due sistemi che rappresenta una sfida significativa. Per risolvere questo problema, è necessaria una soluzione più unificata.

Entra in gioco lo stack dati moderno. Progettato per risolvere le sfide degli stack dati legacy, ci sono componenti specifici che tutti gli stack dati moderni dovrebbero includere.

Archiviazione aperta e basata su cloud

Forse la differenza più significativa tra gli stack dati moderni e quelli legacy è che lo stack dati moderno è ospitato nel cloud. Anziché fare affidamento su server fisici, gli stack dati moderni si basano sul cloud computing e sono spesso forniti tramite un modello SaaS (software as a Service).

Ciò significa che in genere richiedono meno configurazione tecnica da parte dell'utente. Invece, la sicurezza, la manutenzione e gli aggiornamenti sono forniti dalle aziende di stack dati moderni come parte del loro servizio. Questo rende gli stack dati moderni più flessibili ed efficienti rispetto ai loro predecessori legacy.

Ciò si traduce anche nella promozione dell'accessibilità per gli utenti finali, il che significa che un numero maggiore di professionisti dei dati può accedere ai dati, indipendentemente dalla posizione.

Una soluzione basata su cloud aumenta anche la scalabilità, poiché può essere rapidamente adattata per soddisfare le esigenze in evoluzione di un'organizzazione senza i costosi e lunghi tempi di inattività associati alla scalabilità dei server locali.

Capacità per carichi di lavoro diversi e enormi transazioni di dati

Oltre a supportare un'ampia gamma di casi d'uso dei dati, gli strumenti moderni dello stack di dati consentono alle organizzazioni di elaborare enormi transazioni di dati. Sono costituiti da componenti che sfruttano framework di calcolo distribuiti: ad esempio, tecnologie come Hadoop o Spark consentono l'elaborazione dei dati su più nodi o cluster, il che abilita l'elaborazione parallela di grandi set di dati e carichi di lavoro complessi.

Ciò significa che le organizzazioni possono eseguire transazioni di dati complesse e affrontare una più ampia varietà di carichi di lavoro, senza imporre ulteriore stress sulla loro infrastruttura. L'uso di più nodi e cluster consente anche il partizionamento dei dati. Questo aiuta a distribuire il carico di lavoro, consentendo un'interrogazione ed elaborazione più efficienti dividendo i dati in blocchi più piccoli e gestibili.

Tecniche come la compressione dei dati, i formati di archiviazione colonnare e l'indicizzazione vengono utilizzate anche nello stack di dati moderno per ottimizzare l'efficienza di archiviazione ed elaborazione. Queste tecniche riducono lo spazio di archiviazione fisico richiesto per grandi set di dati e accelerano i processi di accesso e recupero dei dati.

Gli stack di dati moderni utilizzano anche pipeline di dati incredibilmente efficienti, inclusi processi ottimizzati di Extract, Transform, Load (ETL) o Extract, Load, Transform (ELT). Ciò garantisce il movimento fluido dei dati dalla sorgente alla destinazione, indipendentemente dal volume dei dati gestiti.

Supporto per la business intelligence

Gli stack di dati moderni sono ben attrezzati per supportare un'ampia gamma di casi d'uso di business intelligence, aiutando le organizzazioni a estrarre il massimo valore possibile dai loro dati. Forniscono strumenti robusti che facilitano l'analisi efficiente dei dati, la visualizzazione dei dati e il processo decisionale basato sui dati.

Le aziende possono anche beneficiare di un'ampia varietà di strumenti di analisi e reporting che possono integrarsi perfettamente con gli stack di dati moderni. Ciò consente alle piattaforme di BI di sfruttare query SQL, strumenti di visualizzazione dei dati, dashboard e funzionalità di reporting per analizzare e presentare insight dai dati. Possono persino integrare analisi predittive o modelli ML per abilitare analisi e processi decisionali più sofisticati.

Alcune architetture di stack di dati moderni supportano persino l'elaborazione e lo streaming di dati in tempo reale. Ciò consente agli strumenti di BI di fornire insight aggiornati e supportare il processo decisionale in tempo reale, aumentando l'agilità e la reattività dell'organizzazione che li utilizza.

Governance dei dati integrata

La governance dei dati integrata è un vantaggio importante degli stack tecnologici di dati moderni. Vengono implementati vari strumenti, processi e policy che lavorano per garantire qualità, conformità, sicurezza e accessibilità dei dati in ogni fase del ciclo di vita dei dati. Incorporano anche sofisticati strumenti di catalogazione dei dati che documentano e gestiscono i metadati.

Avere informazioni su origini dati, strutture, lineage, proprietà e utilizzo è fondamentale per mantenere un catalogo centralizzato aggiornato. Ciò rende i dati più scopribili e facili da comprendere, garantendo al contempo trasparenza e conformità.

Per quanto riguarda la sicurezza, vengono utilizzati meccanismi di controllo degli accessi basato sui ruoli (RBAC) per gestire e controllare quali utenti hanno accesso a diversi set di dati. Questi meccanismi aiutano a far rispettare le policy di sicurezza dell'organizzazione, garantendo che solo il personale autorizzato possa accedere ai dati sensibili.

Ciò è particolarmente importante per le aziende che operano in settori come quello bancario e sanitario, che trattano molti dati sensibili. Gli stack di dati moderni possono anche assistere nella conformità alle normative sui dati come GDPR e HIPAA. Hanno funzionalità che assistono nella conformità abilitando la crittografia e l'auditing dei dati, oltre a garantire l'adesione alle normative sulla privacy e sulla sicurezza.

Molti stack di dati moderni incorporano anche funzionalità di monitoraggio in tempo reale che aiutano a identificare potenziali problemi di governance dei dati. Meccanismi di allerta possono notificare agli amministratori attività sospette o deviazioni dagli standard di governance stabiliti.

LEADER PER LA 5ª VOLTA

Gartner®: Databricks leader dei database cloud

Quali sono i vantaggi dell'utilizzo degli strumenti dello stack di dati moderno?

In generale, i vantaggi dello stack di dati moderno possono essere organizzati nelle seguenti quattro categorie.

Flessibilità

In primo luogo, uno stack di dati moderno offre maggiori livelli di flessibilità. I vari strumenti possono essere utilizzati per soddisfare le esigenze specifiche dell'utente, mentre i servizi disponibili possono essere aggiunti o rimossi secondo necessità. Questa modularità consente di costruire stack strato per strato per creare esattamente lo stack di dati moderno di cui un'organizzazione ha bisogno.

Inoltre, la compatibilità con una varietà di formati di dati, database e servizi di terze parti garantisce interoperabilità e flessibilità nell'incorporare nuove tecnologie. Gli stack di dati moderni sfruttano spesso strumenti e framework open-source, offrendo alle organizzazioni maggiore flessibilità attraverso la personalizzazione e i miglioramenti guidati dalla community.

Offrono anche opzioni sia per l'elaborazione in tempo reale che batch, il che offre maggiore flessibilità alle organizzazioni che gestiscono diversi tipi di carichi di lavoro consentendo loro di adattare l'elaborazione dei dati alle diverse esigenze aziendali.

Efficienza

Poiché lo stack di dati moderno è una soluzione basata su cloud, la velocità con cui i dati possono essere elaborati è aumentata esponenzialmente. Grandi volumi di dati possono essere elaborati in minuti, rispetto alle ore di uno stack di dati legacy.

Gli stack di dati moderni incorporano spesso strumenti automatizzati di elaborazione e trasformazione dei dati. Questi strumenti semplificano attività come la pulizia, la normalizzazione e l'integrazione dei dati, riducendo la necessità di interventi manuali. Questo non solo rende l'elaborazione dei dati più efficiente, ma aiuta anche a migliorare l'accuratezza dei dati.

L'integrazione con strumenti di visualizzazione e reporting dei dati accelera il processo di traduzione dei dati in insight significativi. Molti di questi strumenti offrono anche il vantaggio aggiuntivo di interfacce intuitive e dashboard personalizzabili, che consentono una comprensione più rapida dei pattern e delle tendenze dei dati.

Costo

Mantenere grandi archivi di dati può essere costoso, ma gli stack di dati moderni possono aiutare a ridurre i costi operativi nelle organizzazioni. Essendo basato su cloud, non è necessario investire in hardware o infrastrutture complicate. Oltre a ridurre l'investimento iniziale richiesto, ciò riduce anche i costi di manutenzione e operativi per tutta la durata dello stack di dati.

Molte aziende SaaS di stack di dati moderni offrono prezzi basati sul consumo, che consentono alle organizzazioni di pagare solo per i servizi che utilizzano. I servizi offerti con un modello pay-as-you-go devono essere pagati solo quando vengono utilizzati attivamente, il che minimizza i costi durante i periodi di utilizzo basso o nullo.

Gli stack di dati moderni ottimizzano continuamente l'utilizzo delle risorse automatizzando l'elaborazione dei dati, riducendo al minimo i tempi di inattività e migliorando l'efficienza complessiva delle pipeline di dati. Tutto ciò si traduce in risorse utilizzate in modo più efficace ed efficiente, il che riduce i tempi di inattività e i relativi costi.

Al di fuori dello stack stesso, le funzionalità avanzate di analisi e ML disponibili possono aiutare gli utenti a identificare opportunità di risparmio sui costi. Prevedendo la domanda, ottimizzando le risorse e identificando proattivamente le opportunità di risparmio sui costi, un'organizzazione può assumere il pieno controllo del proprio budget.

Uno stack di dati moderno può persino svolgere un ruolo nella minimizzazione del rischio e dei costi associati alle violazioni dei dati. Implementando robuste misure di governance dei dati, si riducono i rischi di violazioni dei dati, così come le istanze di non conformità normativa. Ciò aiuta le organizzazioni a evitare eventuali sanzioni o problemi legali associati alla non conformità, il che contribuisce ulteriormente al risparmio sui costi.

Cultura dei dati

La cultura dei dati è un termine che si riferisce ai comportamenti, agli atteggiamenti e alle pratiche all'interno di un'organizzazione quando si tratta dei suoi dati. Può comprendere tutto, dalle credenze e abitudini relative al processo decisionale basato sui dati al valore attribuito ai dati. Copre anche l'integrazione complessiva dei dati nelle operazioni quotidiane e nei processi decisionali di un'organizzazione.

Uno stack di dati moderno può aiutare a rivoluzionare la cultura dei dati all'interno di un'organizzazione.

Per cominciare, gli strumenti dello stack di dati moderno sono progettati pensando all'usabilità. Ciò rende i dati più accessibili ai dipendenti di tutte le capacità tecniche. La flessibilità offerta significa anche che gli utenti non sono limitati all'uso di un unico strumento particolare, potendo invece scegliere lo strumento che meglio soddisfa le loro esigenze e il loro livello di competenza.

Nel frattempo, le robuste misure di governance dei dati incluse nello stack di dati moderno lavorano per costruire fiducia nell'accuratezza dei dati. Fornendo dati affidabili e ben governati, questi stack incoraggiano l'uso dei dati nei processi decisionali. Ciò crea una cultura di fiducia attorno ai dati di un'organizzazione.

Una volta stabilita questa fiducia, la flessibilità e la scalabilità offerte possono iniziare a brillare, offrendo agli utenti modi per sperimentare nuove origini dati, strumenti analitici e metodologie. Ciò aiuta a costruire una cultura di innovazione ed esplorazione.

Gli stack di dati moderni possono persino aiutare a promuovere una migliore comunicazione e collaborazione tra i team. Cataloghi dati integrati, gestione dei metadati e le funzionalità collaborative incluse aiutano in questo. Ogni stakeholder può avere una comprensione condivisa degli asset di dati, allineando i propri sforzi verso obiettivi aziendali comuni relativi ai dati.

Usi di successo degli stack di dati moderni

Organizzazioni di un'ampia varietà di settori hanno utilizzato stack di dati moderni per rivoluzionare il loro approccio ai dati. Ecco solo alcuni esempi:

AT&T

AT&T è uno dei principali fornitori di telecomunicazioni operanti negli Stati Uniti oggi. In passato, si affidavano a un'architettura dati tradizionale on-premises. Tuttavia, poiché i tipi e la quantità di dati che gestivano hanno iniziato a moltiplicarsi, è diventato presto evidente che avevano bisogno di una soluzione migliore e hanno quindi migrato la loro architettura legacy a uno stack dati moderno fornito da Databricks.

Ciò li ha aiutati a ottenere le informazioni in tempo reale e l'automazione necessarie per ottimizzare l'invio dei loro tecnici. Ora, possono abbinare le competenze di risoluzione dei problemi dei loro tecnici al problema del cliente che necessita di essere risolto, nonché alla posizione di quel cliente. Questi sono tre punti dati che semplicemente non potevano essere unificati con il loro sistema legacy.

Questo nuovo approccio automatizzato all'invio dei tecnici ha aiutato AT&T a fornire un'eccellente esperienza di servizio clienti, riducendo al contempo i costi operativi riducendo il numero di tentativi necessari per risolvere un problema.

HSBC

HSBC è una delle più grandi banche internazionali, al servizio di oltre 39 milioni di clienti in tutto il mondo. Con una base di clienti così ampia, le limitazioni di scalabilità erano inevitabili. O lo erano - fino a quando HSBC non ha adottato uno stack dati moderno.

Ora, possono scalare l'analisi dei dati e l'ML secondo necessità, dando loro il potere di guidare una serie di casi d'uso incentrati sul cliente, tra cui personalizzazione, raccomandazioni, network science e rilevamento frodi. E tutto questo a una velocità che soddisfa le loro esigenze aziendali.

"Abbiamo riscontrato miglioramenti significativi nella velocità con cui i dati sono disponibili per l'analisi. Abbiamo un numero di processi che prima richiedevano 6 ore e ora richiedono solo 6 secondi." — Alessio Basso, Chief Architect, HSBC

USPS

Uno stack dati moderno ha dato la possibilità a USPS di servire in modo efficiente i clienti in tutti gli Stati Uniti. Il passaggio a un'architettura lakehouse basata su cloud consente loro di rispondere rapidamente alle nuove sfide dei dati e offre nuove opportunità di innovazione.

Inoltre, USPS OIG è ora meglio posizionata per indagare, controllare e ricercare le operazioni e i programmi postali. Questo li aiuta nella loro lotta contro frodi, sprechi e abusi, garantendo l'efficienza e l'integrità del servizio postale per molti anni a venire.

Abbraccia un'architettura di stack dati moderna con la Databricks Data Intelligence Platform

Un'architettura di stack dati moderna è il passo successivo nell'evoluzione dello stack dati. La scalabilità, l'efficienza e la governance migliorata che offre consentono alle aziende di tutti i settori di realizzare il pieno valore dei propri dati in modo efficiente e sicuro.

La Databricks Data Intelligence Platform è costruita su un'architettura lakehouse che combina i migliori aspetti dei data lake e dei data warehouse per fornire uno stack dati moderno che ti aiuterà a ridurre i costi, aumentare la produttività e accelerare le tue iniziative di dati e AI.

Databricks ha concentrato i suoi sforzi di ingegneria sull'incorporazione di un'ampia gamma di miglioramenti software e hardware leader del settore al fine di implementare la primissima piattaforma di intelligenza dei dati.

Il nostro approccio sfrutta i progressi computazionali del framework Apache Spark™ e le più recenti tecnologie di rete, storage e CPU per fornire le prestazioni di cui i clienti hanno bisogno per semplificare la loro architettura.

Queste innovazioni si combinano per fornire un'unica architettura in grado di archiviare ed elaborare tutti i set di dati all'interno di un'organizzazione e supportare un'ampia gamma di analisi per insight vitali.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Non perdere mai un post di Databricks

Iscriviti al nostro blog e ricevi gli ultimi post direttamente nella tua casella di posta elettronica.