Passa al contenuto principale

Data Intelligence Platform

Il nostro punto di vista su come l'AI cambierà radicalmente le piattaforme dati e su come i dati cambieranno l'AI aziendale

Data Intelligence Platforms

L'osservazione che "il software sta divorando il mondo" ha plasmato la moderna industria tecnologica. Oggi il software è onnipresente nelle nostre vite, dagli orologi che indossiamo alle nostre case, auto, fabbriche e fattorie. In Databricks, crediamo che presto l'AI divorerà tutto il software. In altre parole, il software sviluppato negli ultimi decenni sarà intelligente, sfrutterà i dati e diventerà quindi molto più intelligente. Le implicazioni sono vaste e variegate e hanno un impatto su tutto, dall'assistenza clienti alla sanità e all'istruzione.

In questo blog esponiamo il nostro punto di vista su come l'IA cambierà le piattaforme dati. Sosteniamo che l'impatto dell'IA sulle piattaforme dati non sarà incrementale, ma fondamentale: democratizzando in modo massiccio l'accesso ai dati, automatizzando l'amministrazione manuale e abilitando la creazione chiavi in mano di applicazioni IA personalizzate. Tutto questo sarà reso possibile da una nuova ondata di piattaforme unificate che comprendono a fondo i dati di un'organizzazione. Chiamiamo questa nuova generazione di sistemi Data Intelligence Platforms.

Le piattaforme dati finora e le loro sfide

I data warehouse sono emersi negli anni '80 come soluzione per organizzare i dati aziendali strutturati nelle imprese. Tuttavia, intorno al 2010, le organizzazioni hanno iniziato ad accumulare una quantità significativa di dati non strutturati per supportare casi d'uso più svariati, come l'IA. Per far fronte a questa esigenza, sono stati introdotti i data lake come sistema aperto e scalabile per qualsiasi tipo di dati. Nel 2015, per la maggior parte delle organizzazioni era ormai comune gestire sia data warehouse che data lake. Questo approccio a doppia piattaforma, tuttavia, presentava sfide significative in termini di governance, sicurezza, affidabilità e gestione.

Cinque anni fa, Databricks ha introdotto il concetto di lakehouse per combinare e unificare il meglio di entrambi i mondi. I lakehouse archiviano e governano tutti i tuoi dati in formati aperti e supportano in modo nativo carichi di lavoro che vanno dalla BI all'IA. Per la prima volta, le lakehouse hanno offerto un sistema unificato per (1) query insieme tutte le sorgenti di dati di un'organizzazione e (2) governare in modo unificato tutti i carichi di lavoro che utilizzano i dati (BI, AI, ecc.). Il lakehouse è diventato una categoria a sé stante di piattaforma dati e oggi è ampiamente adottato dalle aziende e integrato negli stack della maggior parte dei fornitori.

Nonostante i progressi, tutte le attuali piattaforme dati sul mercato affrontano ancora diverse sfide importanti:

  • Barriera di competenze tecniche: L'interrogazione dei dati richiede competenze specializzate in SQL, Python o BI, creando una curva di apprendimento ripida
  • Accuratezza e cura dei dati: nelle grandi organizzazioni, trovare i dati giusti e accurati è una sfida, che richiede un'ampia attività di cura e pianificazione.
  • Complessità di gestione: i costi delle piattaforme di dati possono salire alle stelle e le prestazioni possono essere scarse se non vengono gestite da personale altamente qualificato.
  • Governance e privacy: i requisiti di governance in tutto il mondo sono in rapida evoluzione e, con l'avvento dell'IA, le preoccupazioni relative a tracciabilità, sicurezza e privacy vengono amplificate.
  • Applicazioni di AI emergenti: per abilitare applicazioni di AI generativa che rispondono a richieste specifiche di un dominio, le organizzazioni devono sviluppare e ottimizzare gli LLM in piattaforme separate dai loro dati e collegarli ai propri dati tramite ingegneria manuale.

Molti di questi problemi nascono perché le piattaforme dati non comprendono a fondo i dati nelle organizzazioni e il modo in cui vengono utilizzati. Fortunatamente, l'IA generativa offre un nuovo e potente strumento per affrontare proprio queste sfide.

L'idea centrale alla base delle piattaforme di Data Intelligence

Le Piattaforme di Data Intelligence rivoluzionano la gestione dei dati utilizzando modelli di IA per comprendere a fondo la semantica dei dati aziendali; chiamiamo questo approccio data intelligence. Si basano sulle fondamenta della lakehouse, un sistema unificato per interrogare e gestire tutti i dati a livello aziendale, ma analizzano automaticamente sia i dati (contenuti e metadati) sia il modo in cui vengono utilizzati (query, report, lineage, ecc.) per aggiungere nuove funzionalità. Grazie a questa profonda comprensione dei dati, le Data Intelligence Platform consentono:

  • Accesso in linguaggio naturale: sfruttando i modelli di IA, le piattaforme DI consentono di lavorare con i dati in linguaggio naturale, adattandosi al gergo e agli acronimi di ogni organizzazione. La piattaforma osserva come vengono utilizzati i dati nei carichi di lavoro esistenti per apprendere i termini dell'organizzazione e offre un'interfaccia in linguaggio naturale personalizzata a tutti gli utenti, dai non addetti ai lavori ai data engineer.
  • Catalogazione e scoperta semantica: l'AI generativa è in grado di comprendere il modello di dati, le metriche e i KPI di ogni organizzazione per offrire funzionalità di scoperta senza precedenti o per identificare automaticamente le discrepanze nel modo in cui vengono utilizzati i dati.
  • Automatizza gestione e ottimizzazione dei dati: i modelli di data intelligence possono ottimizzare il layout, il partizionamento e l'indicizzazione dei dati in base al loro utilizzo, riducendo la necessità di regolare e configurare manualmente i parametri.
  • Governance e privacy avanzate: le piattaforme DI possono rilevare, classificare e prevenire automaticamente l'uso improprio di dati sensibili, semplificando al contempo la gestione tramite il linguaggio naturale.
  • Supporto di prima classe per i carichi di lavoro AI: Le piattaforme DI possono potenziare qualsiasi applicazione AI aziendale consentendole di connettersi ai dati aziendali pertinenti e di sfruttare la semantica appresa dalla piattaforma DI (metriche, KPI, ecc.) per fornire risultati accurati. Gli sviluppatori di applicazioni AI non devono più "improvvisare" l'intelligenza tramite una fragile prompt ingegneria.

Alcuni potrebbero chiedersi in che modo ciò si differenzi dalle funzionalità di Q&A in linguaggio naturale che gli strumenti di BI hanno aggiunto negli ultimi anni. Gli strumenti di BI rappresentano solo una piccola (anche se importante) parte dei carichi di lavoro complessivi sui dati e, di conseguenza, non hanno visibilità sulla stragrande maggioranza dei carichi di lavoro in esecuzione, o sul lignaggio e sugli utilizzi dei dati prima che raggiungano il livello di BI. Senza visibilità su questi carichi di lavoro, non possono sviluppare la profonda comprensione semantica necessaria. Di conseguenza, queste funzionalità di Q&A in linguaggio naturale non hanno ancora visto un'adozione diffusa. Con le piattaforme di data intelligence, gli strumenti di BI saranno in grado di sfruttare i modelli di AI sottostanti per funzionalità molto più ricche. Riteniamo pertanto che questa funzionalità principale risiederà nelle piattaforme di dati.

 

Databricks come piattaforma di Data Intelligence

In Databricks, stiamo costruendo una data intelligence platform basata sul data lakehouse e siamo sempre più entusiasti delle possibilità dell'AI nelle piattaforme dati man mano che aggiungiamo singole funzionalità. Sfruttiamo le capacità uniche esistenti del lakehouse di Databricks in quanto unica piattaforma dati del settore con (1) un livello di governance unificato per dati e IA e (2) un unico motore di query unificato che spazia tra ETL, SQL, machine learning e BI. Inoltre, abbiamo sfruttato la nostra acquisizione di MosaicML per generare modelli di IA in un motore di Data Intelligence che chiamiamo DatabricksIQ, che alimenta tutte le parti della nostra piattaforma.

DatabricksIQ permea già molti dei livelli del nostro stack attuale. Viene utilizzato per:

  • Regola le impostazioni in tutta la piattaforma, tra cui l'indicizzazione automatica delle colonne, la disposizione delle partizioni e il rafforzamento delle fondamenta del lakehouse. Questo fornirà un TCO inferiore e prestazioni migliori ai nostri clienti.
  • Migliorare la governance in Unity Catalog (UC) inserendo automaticamente descrizioni e tag di tutti gli asset di dati in UC. Questi vengono quindi utilizzati per rendere l'intera piattaforma consapevole di gergo, acronimi, metriche e semantica. Ciò consente una migliore ricerca semantica, una migliore qualità dell'assistente AI e una maggiore capacità di governance.
  • Migliora la generazione di Python e SQL nel nostro assistente AI, potenziando sia text-to-SQL che text-to-Python.
  • Accelera notevolmente queste query incorporando le previsioni sui dati nella pianificazione delle query nel nostro motore di query Photon.
  • All'interno di Delta Live Tables e Serverless Jobs per fornire un autoscaling ottimale e ridurre al minimo i costi in base alle previsioni sul carico di lavoro.

Infine, ma forse ancora più importante, riteniamo che le data intelligence platform semplificheranno notevolmente lo sviluppo di applicazioni di IA aziendali. Stiamo integrando DatabricksIQ direttamente con la nostra piattaforma di IA, Mosaic AI, per consentire alle aziende di creare facilmente applicazioni di IA che comprendano i loro dati. Mosaic AI ora offre molteplici funzionalità per integrare direttamente i dati aziendali nei sistemi di IA, tra cui:

  • RAG (Retrieval Augmented Generation) end-to-end per creare agenti conversazionali di alta qualità sui tuoi dati personalizzati, sfruttando il Databricks Vector Database per la "memoria".
  • Addestramento di modelli personalizzati sia da zero sui dati di un'organizzazione, sia attraverso il pre-addestramento continuo di modelli esistenti come MPT e Llama 2, per potenziare ulteriormente le applicazioni AI con una profonda comprensione di un dominio di destinazione.
  • Inferenza serverless efficiente e sicura sui dati aziendali, connessa alle funzionalità di governance e monitoraggio della qualità di Unity Catalog.
  • MLOps end-to-end basato sul popolare progetto open source MLflow, con tutti i dati prodotti automaticamente utilizzabili, tracciati e monitorabili nel lakehouse.

Riepilogo

Crediamo che l'IA trasformerà tutti i software e che le piattaforme dati siano una delle aree più mature per l'innovazione attraverso l'IA. Storicamente, le piattaforme dati sono state di difficile accesso per gli utenti finali e complesse da gestire e governare per i team dei dati. Le piattaforme di data intelligence sono destinate a trasformare questo panorama affrontando direttamente entrambe queste sfide, rendendo i dati molto più facili da query, gestire e governare. Inoltre, la loro profonda conoscenza dei dati e del loro utilizzo costituirà le fondamenta per le applicazioni di AI aziendale che operano su tali dati. Mentre l'AI ridefinisce il mondo del software, crediamo che i leader di ogni settore saranno coloro che sfrutteranno appieno i dati e l'AI per potenziare le proprie organizzazioni. Le piattaforme di DI saranno un elemento fondamentale per queste organizzazioni, consentendo loro di creare la nuova generazione di applicazioni di dati e IA con qualità, velocità e agilità.

Databricks founders enjoying Thanksgiving together in 2013

 

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Non perdere mai un post di Databricks

Iscriviti al nostro blog e ricevi gli ultimi post direttamente nella tua casella di posta elettronica.

Cosa succederà adesso?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks