Il data warehouse
non è fatto per il mondo moderno
Come il CD, le fotocamere usa e getta, il floppy disk e la maggior parte delle invenzioni vecchie di 40 anni, il data warehouse ha avuto una grande storia. Ma nuovi casi d'uso hanno favorito l'emergere di nuove tecnologie. I CD non possono trasmettere musica in streaming. Le fotocamere con il rullino non possono condividere le fotografie. I floppy disk non possono competere con la capacità di stoccaggio infinita del cloud. E i data warehouse non possono eseguire funzioni di AI.
È ora di un approccio più semplice
L'AI è una priorità per ogni organizzazione. Ma l'attuale infrastruttura, complessa e obsoleta, non consente di realizzare la promessa dell'AI. È giunto il tempo di una nuova architettura di gestione dei dati che soddisfi le esigenze attuali delle aziende e sia già pronta per qualunque cosa riservi il futuro.
Comincia una nuova era dei dati e dell'AI
La data lakehouse è un'architettura di dati aperta che unisce il meglio dei data warehouse e dei data lake su un'unica piattaforma.
Ora è possibile memorizzare tutti i dati (strutturati, semi-strutturati e non strutturati) in un data lake aperto e ottenere comunque la qualità, le prestazioni, la sicurezza e la governance che ci si aspetta da un data warehouse. Ciò rende il lakehouse l'unica architettura in grado di supportare Business Intelligence, analisi SQL, applicazioni di dati in tempo reale, data science e machine learning su un'unica piattaforma.
Una piattaforma per tutti i casi d'uso
Gli ingredienti principali
Delta Lake è un progetto open-source che porta affidabilità, sicurezza e prestazioni al data lake aziendale, essenziale per costruire un'architettura lakehouse su sistemi di storage esistenti quali Amazon S3, Azure Data Lake Store e Google Cloud Storage.
Delta Lake viene immagazzinato in un formato di dati aperto, evitando l'isolamento dei dati dovuto all'utilizzo di formati proprietari e consentendo l'accesso a un vasto ecosistema open-source. Oggi migliaia di aziende elaborano già esabyte di dati ogni mese con Delta Lake.
Le lakehouse fanno quello che i data warehouse non possono fare
Il lakehouse supera i limiti del data warehouse poiché è progettato per gestire tutti i tipi di dati, supportando al tempo stesso sia carichi di lavoro data warehouse tradizionali, sia machine learning, in maniera nativa. Il lakehouse aggiunge tutte queste funzionalità al data lake esistente, creando un unico sistema aperto per gestire tutti i dati aziendali e supportare nuovi casi d'uso.
data warehouse |
|
|
---|---|---|
Chiusi | Aperta | |
Strutturati* | Qualsiasi tipo di dati | |
Limitata** | Altamente scalabile | |
$$$ | $ | |
BI, SQL | BI, SQL, ML, app in tempo reale | |
Solo SQL | Open APIs for direct access to files with SQL, R, Python and other languages | |
Dati affidabili di alta qualità con transazioni ACID | Dati affidabili di alta qualità con transazioni ACID | |
Fine-grained security and governance for row/columnar level for tables | Fine-grained security and governance for row/columnar level for tables | |
High | High |
*Supporto limitato per dati semi-strutturati
**Costi proibitivi per la scalabilità
Il padre dei data warehouse è d'accordo.
Scarica la tua copia omaggio del nuovo libro di Bill Inmon Building the Data Lakehouse.
Il lakehouse trasforma il data lake
Le lakehouse superano i problemi fondamentali che hanno trasformato i data lake in paludi di dati. Le lakehouse portano qualità al data lake aggiungendo le funzionalità chiave del data warehouse, quali transazioni, schemi e governance. Inoltre, sfruttano diverse tecniche di ottimizzazione delle prestazioni per consentire un'analisi veloce. Grazie a queste ottimizzazioni della gestione dei dati e delle prestazioni per il data lake aperto, le lakehouse possono supportare nativamente applicazioni BI e ML.
Data Lake |
|
|
---|---|---|
Aperta | Aperta | |
Qualsiasi tipo di dati | Qualsiasi tipo di dati | |
Altamente scalabile | Altamente scalabile | |
$ | $ | |
ML | BI, SQL, ML, app in tempo reale | |
Altamente scalabile | Open APIs for direct access to files with SQL, R, Python and other languages | |
Low quality, data swamp | Dati affidabili di alta qualità con transazioni ACID | |
Governance scadente perché è necessario applicare sicurezza ai file | Fine-grained security and governance for row/columnar level for tables | |
Low | High |
Il padre dei data warehouse è d'accordo.
Scarica la tua copia omaggio del nuovo libro di Bill Inmon Building the Data Lakehouse.
La prima e unica piattaforma lakehouse in cloud al mondo
Fornita e gestita come servizio su AWS, Microsoft Azure o Google Cloud, la Lakehouse Platform di Databricks rende disponibili tutti i dati presenti nel data lake per un numero indefinito di casi d'uso guidati dai dati.
Gli ingegneri dei dati possono costruire pipeline di dati veloci e affidabili. Gli analisti possono fare BI eseguendo query SQL più velocemente della maggior parte dei data warehouse. I data scientist possono snellire le MLOps. E quando tutti i team di gestione dei dati operano sulla stessa piattaforma, si possono ridurre drasticamente i costi di infrastruttura, aumentare la produttività dei team e accelerare l'innovazione.
BI & SQL
Analisi direttamente sul data lake
Databricks porta l'analisi dei dati nel data lake, offrendo le prestazioni del data warehouse abbinate all'economicità del data lake.
Utilizzando standard open-source per evitare l'isolamento dei dati, la Lakehouse Platform di Databricks offre l'affidabilità, la qualità e le prestazioni di cui i data lake sono privi originariamente, oltre a un rapporto prezzo/prestazioni fino a 6 volte migliore rispetto ai tradizionali data warehouse in cloud.
Ingegneria
dei dati
Dati freschi e affidabili con facilità
Databricks fornisce una soluzione completa per il data engineering (acquisizione, elaborazione e schedulazione) che automatizza il processo complesso di costruzione e manutenzione delle pipeline e di esecuzione dei carichi di lavoro ETL direttamente su un data lake, in modo che gli ingegneri possano concentrarsi sulla qualità e sull'affidabilità per fornire informazioni preziose.
Elaborazione in streaming
Elaborazione in streaming semplice, scalabile e tollerante agli errori
Con Databricks, i team di gestione dei dati possono estrapolare informazioni approfondite e fruibili da dati alla rinfusa, con un'elaborazione continua che offre garanzie di servizio a una frazione del costo. L'utilizzo di Databricks per casi d'uso in streaming offre ai team la capacità di creare applicazioni guidate dai dati in tempo reale, caratterizzate da bassa latenza, scalabilità e tolleranza agli errori.
Data Science e ML
Ciclo di vita completo del machine learning
Databricks mette a disposizione una piattaforma aperta completa per data science e machine learning. Abilitando l'accesso a pipeline di dati con qualità e prestazioni elevate e a funzionalità di machine learning "out of the box", Databricks consente ai team di dati e ML di collaborare su una piattaforma unificata, accelerando l'intero ciclo di vita del machine learning, dall'ingegnerizzazione delle feature alla produzione.
Sicurezza e amministrazione comuni
Sicurezza e amministrazione comuni
Databricks protegge i dati con controlli di accesso granulari e la capacità di estendere facilmente la sicurezza con le politiche di sicurezza native per il cloud e i sistemi di gestione delle identità esistenti, per creare spazi di lavoro privati, conformi e isolati. Gli amministratori della piattaforma possono gestire facilmente l'intera esperienza sulla piattaforma e controllare la spesa su ogni spazio di lavoro.
Elaborazione, gestione e governance dei dati
Elaborazione, gestione e governance dei dati
Con processi ETL automatizzati e affidabili, condivisione di dati aperta e sicura, e un approccio unificato alla governance che abbraccia tutti i fornitori di servizi in cloud, Databricks snellisce la gestione dei dati e costituisce le fondamenta di una lakehouse altamente scalabile a costi contenuti.
Data lake aperto
Dati affidabili di alta qualità
Il tuo data lake contiene già la stragrande maggioranza dei dati strutturati, semi-strutturati e non strutturati. Ora potrai abbinare l'apertura e la flessibilità del data lake a una solida affidabilità e qualità per supportare le esigenze di tutti i casi d'uso di analisi su larga scala.
Scopri
Passa il mouse sul grafico per scoprire i livelli di una lakehouse costruita su Databricks.
Analisi direttamente sul data lake
Databricks porta l'analisi dei dati nel data lake, offrendo le prestazioni del data warehouse abbinate all'economicità del data lake. Utilizzando standard open-source per evitare l'isolamento dei dati, la Lakehouse Platform di Databricks offre l'affidabilità, la qualità e le prestazioni di cui i data lake sono privi originariamente, oltre a un rapporto prezzo/prestazioni fino a 6 volte migliore rispetto ai tradizionali data warehouse in cloud.
Analisi direttamente sul data lake
Databricks porta l'analisi dei dati nel data lake, offrendo le prestazioni del data warehouse abbinate all'economicità del data lake. Utilizzando standard open-source per evitare l'isolamento dei dati, la Lakehouse Platform di Databricks offre l'affidabilità, la qualità e le prestazioni di cui i data lake sono privi originariamente, oltre a un rapporto prezzo/prestazioni fino a 6 volte migliore rispetto ai tradizionali data warehouse in cloud.
Dati freschi e affidabili con facilità
Databricks fornisce una soluzione completa per il data engineering (acquisizione, elaborazione e schedulazione) che automatizza il processo complesso di costruzione e manutenzione delle pipeline e di esecuzione dei carichi di lavoro ETL direttamente su un data lake, in modo che gli ingegneri possano concentrarsi sulla qualità e sull'affidabilità per fornire informazioni preziose.
Ciclo di vita completo del machine learning
Databricks mette a disposizione una piattaforma aperta completa per data science e machine learning. Abilitando l'accesso a pipeline di dati con qualità e prestazioni elevate e a funzionalità di machine learning "out of the box", Databricks consente ai team di dati e ML di collaborare su una piattaforma unificata, accelerando l'intero ciclo di vita del machine learning, dall'ingegnerizzazione delle feature alla produzione.