Questo blog è stato scritto da Sai Ravuru, Senior Manager di Data Science e analitiche presso JetBlue
Il ruolo dei dati nel settore dell'aviazione ha una lunga storia. Le compagnie aeree sono state tra i primi utenti dei computer mainframe e oggi il loro utilizzo dei dati si è evoluto per supportare ogni parte del business. Grazie in gran parte alla qualità e alla quantità dei dati, le compagnie aeree sono tra i mezzi di trasporto più sicuri al mondo.
Oggi le compagnie aeree devono bilanciare diverse variabili che si intrecciano tra loro in una sequenza cronologica:
Il ruolo dei dati e in particolare delle analitiche, dell'AI e del ML è fondamentale per le compagnie aeree al fine di offrire un'esperienza fluida ai clienti, mantenendo al contempo attività operative efficienti per ottimizzare gli obiettivi di business.
Le compagnie aeree sono uno dei settori industriali più basati sui dati al mondo, data la frequenza, il volume e la varietà dei cambiamenti che si verificano, poiché i clienti dipendono da questa componente vitale della nostra infrastruttura di trasporto.
Per un singolo volo, ad esempio da New York a Londra, devono essere prese centinaia di decisioni sulla base di fattori che includono i clienti, gli equipaggi, i sensori degli aeromobili, i dati meteo e i dati del controllo del traffico aereo (ATC) in tempo reale. Una grave interruzione come una violenta tempesta invernale può avere un impatto su migliaia di voli negli Stati Uniti. Pertanto, è fondamentale per le compagnie aeree affidarsi a dati in tempo reale, all'AI e al ML per prendere decisioni proattive in tempo reale.
Gli aeromobili generano terabyte di dati dai sensori IoT nell'arco di una giornata e le interazioni dei clienti con i canali di prenotazione o self-service, i continui cambiamenti operativi derivanti da condizioni meteorologiche dinamiche e dai vincoli del traffico aereo sono solo alcuni degli elementi che evidenziano la complessità, il volume, la varietà e la velocità dei dati in una compagnia aerea come JetBlue.
Con sei città di riferimento (Boston, Fort Lauderdale, Los Angeles, New York City, Orlando, San Juan) e un'alta concentrazione di voli nel corridoio aereo più trafficato del mondo, New York City, nel 2023 JetBlue ha:

Data l'importanza strategica dei dati in JetBlue, il team addetto ai dati è composto dai team di integrazione dei dati, ingegneria dei dati, Data Science commerciale, Data Science per le attività operative, ingegneria AI e ML e Business Intelligence, che riportano direttamente al CTO.
L'attuale stack tecnologico di JetBlue è incentrato principalmente su Azure, con un'architettura data warehouse in cloud multi-cloud e lakehouse in esecuzione simultanea per vari scopi. Sia i dati interni che quelli esterni vengono continuamente arricchiti nella Databricks Data Intelligence Platform sotto forma di flussi batch, quasi in tempo reale e in tempo reale.
L'utilizzo di Delta Live Tables per estrarre, caricare e trasformare i dati consente a Data Engineer e Data Scientists di soddisfare un'ampia gamma di requisiti SLA di latenza, alimentando al contempo le applicazioni a valle, le pipeline di AI e pipeline ML, le dashboard di BI e le esigenze degli analista.
JetBlue utilizza la libreria BlueML sviluppata internamente con funzionalità di AutoML, AutoDeploy e negozio di funzionalità online, oltre a MLflow, API di registro dei modelli e dipendenze personalizzate per l'addestramento e l'inferenza di modelli di AI e ML.
Le informazioni dettagliate vengono fruite utilizzando API REST che collegano le dashboard di Tableau a Databricks SQL serverless compute, un livello semantico a servizio rapido e/o API di serving ML distribuite.
L'implementazione di nuovi prodotti di ML è spesso accompagnata da solidi processi di gestione del cambiamento, in particolare nei settori di attività strettamente regolamentati dalle Federal Air Regulations e da altre leggi, a causa della sensibilità dei dati e del relativo processo decisionale. Tradizionalmente, tale gestione del cambiamento ha comportato una serie di workshop, addestramento, feedback sul prodotto e modalità più specializzate con cui gli utenti possono interagire con il prodotto, come KPI e dashboard specifici per ruolo.
Alla luce dei recenti progressi nell'IA generativa, la gestione tradizionale del cambiamento e la gestione dei prodotti di ML sono state rivoluzionate. Gli utenti possono ora utilizzare la sofisticata tecnologia dei modelli linguistici di grandi dimensioni (LLM) per accedere a KPI e informazioni specifici per il ruolo, compreso il supporto tramite il linguaggio naturale a loro familiare. Ciò riduce drasticamente l'addestramento richiesto per una corretta scalabilità del prodotto tra gli utenti, i tempi di risposta per il feedback sul prodotto e, cosa più importante, semplifica l'accesso a un riepilogo pertinente delle informazioni dettagliate; l'accesso alle informazioni non si misura più in clic, ma nel numero di parole della domanda.
Per soddisfare le esigenze di IA generativa e ML, il team di ingegneria IA e ML di JetBlue si è concentrato sulla risoluzione delle sfide aziendali.
| Linee di business | Prodotti strategici | Risultato/i strategico/i |
| Data Science commerciale |
|
|
| Data Science delle attività operative |
|
|
| Ingegneria di AI e ML |
|
|
| Business Intelligence |
|
|
Utilizzando questa architettura, JetBlue ha accelerato le implementazioni di IA e ML in un'ampia gamma di casi d'uso che coprono quattro linee di business, ciascuna con il proprio team di IA e ML. Di seguito sono riportate le funzioni fondamentali delle linee di business:
Ogni linea di business supporta più prodotti strategici che vengono regolarmente prioritizzati dalla leadership di JetBlue per definire i KPI che portano a risultati strategici efficaci.
La tecnologia di dati e AI è fondamentale per prendere decisioni proattive in tempo reale; tuttavia, l'utilizzo di piattaforme di architettura dati legacy influisce sui risultati aziendali.
I dati di JetBlue vengono serviti principalmente tramite il Multi data warehouse in cloud, il che si traduce in una mancanza di flessibilità per progettazioni complicate, modifiche della latenza e scalabilità dei costi.
![]() | Latenza elevata: una latenza di 10 minuti dell'architettura dati costa all'organizzazione milioni di dollari all'anno. |
![]() | Architettura complessa: più fasi di spostamento dei dati su più piattaforme e prodotti sono inefficienti per i casi d'uso di streaming in tempo reale, poiché complesse e proibitive in termini di costi. |
![]() | TCO elevato della piattaforma: avere numerose piattaforme dati e risorse di vari fornitori per gestire la piattaforma dati comporta costi operativi elevati. |
![]() | Scalabilità: l'attuale architettura dei dati presenta problemi di scalabilità nell'elaborazione di exabyte (grandi quantità di dati) generati da molti voli. |
A causa della mancanza di popolamento del negozio di funzionalità online, l'elevata latenza nell'architettura tradizionale ha impedito ai nostri data scientist di creare pipeline di addestramento e inferenza ML scalabili. Quando i data scientist e gli ingegneri AI e ML nella lakehouse hanno avuto la libertà di integrare i modelli ML più vicino all'architettura medallion, è stata sbloccata l'efficienza della strategia go-to-market.
“Le architetture complesse, come la gestione dinamica degli schemi e le trasformazioni stateful/stateless (con/senza stato), erano difficili da implementare con una classica architettura data warehouse multicloud. Ora, data scientist e data engineer possono eseguire tali modifiche utilizzando Delta Live Tables scalabili senza barriere di ingresso.” La possibilità di passare da SQL a Python e PySpark ha aumentato notevolmente la produttività del team Dati di JetBlue.
A causa dell'incapacità delle pipeline di scalare rapidamente, la mancanza di un design scalabile open-source nei data warehouse multicloud ha comportato complesse analisi della causa radice (RCA) in caso di errore delle pipeline, test e risoluzione dei problemi inefficienti e, in definitiva, un TCO più elevato. Durante la transizione, il team dati ha monitorato attentamente le spese di compute su MCDW rispetto a Databricks; man mano che venivano attivati per il consumo più feed di dati in tempo reale e a volumi elevati, i costi ETL/ELT sono aumentati a un tasso proporzionalmente inferiore e lineare rispetto ai costi ETL/ELT del data warehouse multi-cloud legacy.
La governance dei dati è il principale ostacolo all'implementazione dell'IA generativa e del machine learning in qualsiasi organizzazione. Poiché l'accesso basato sui ruoli a dati e informazioni dettagliate cruciali è strettamente monitorato in settori altamente regolamentati come quello dell'aviazione, questi settori vantano procedure efficaci di governance dei dati. La necessità di embedding curati, possibili solo in sistemi sofisticati con 100 o più miliardi di parametri come chatGPT di OpenAI, complica la governance dei dati dell'organizzazione. Per un'efficace governance dell'AI generativa è necessaria una combinazione di OpenAI per gli embedding, Dolly 2.0 di Databricks per l'ingegneria rapida e del repository di documenti offline/online di JetBlue.
Con la Databricks Data Intelligence Platform che funge da hub centrale per tutti i casi d'uso di streaming, JetBlue fornisce in modo efficiente diversi prodotti/informazioni dettagliate di ML e analitiche, elaborando migliaia di attributi in tempo reale. Questi attributi includono dati relativi a voli, clienti, equipaggio, traffico aereo e manutenzione.
Il lakehouse fornisce dati in tempo reale tramite Delta Live Tables, consentendo lo sviluppo di pipeline di ML per l'addestramento storico e l'inferenza in tempo reale. Queste pipeline vengono implementate come APIs di servizio ML che aggiornano continuamente un'istantanea della rete di sistema di JetBlue. Qualsiasi impatto operativo derivante da varie variabili controllabili e incontrollabili, come condizioni meteorologiche in rapido cambiamento, eventi di manutenzione degli aeromobili con anomalie, equipaggi di volo prossimi ai limiti legali di servizio o restrizioni ATC su arrivi/partenze, si propaga attraverso la rete. Ciò consente di effettuare aggiustamenti preventivi in base ad avvisi previsti.
Streams in tempo reale di dati meteorologici, sensori degli aeromobili, feed di dati della FAA, attività operative di JetBlue e altro ancora vengono utilizzati per il primo sistema operativo di AI e ML al mondo che orchestra un gemello digitale, noto come BlueSky, per attività operative efficienti e sicure. JetBlue ha oltre 10 prodotti di ML (più modelli per ogni prodotto) in produzione in vari settori verticali, tra cui prezzi dinamici, motori di raccomandazione per i clienti, ottimizzazione della catena di approvvigionamento, NLP per l'analisi del sentiment dei clienti e molti altri.
Il digital twin delle attività operative BlueSky è uno dei prodotti più complessi attualmente in fase di implementazione in JetBlue da parte del team dei dati e costituisce la spina dorsale delle capacità di previsione e simulazione delle attività operative aeree di JetBlue.
BlueSky, che è ora in fase di introduzione, sta sbloccando efficienze operative in JetBlue attraverso un processo decisionale proattivo e ottimale, con conseguente maggiore soddisfazione dei clienti, soddisfazione dell'equipaggio di volo, efficienza del carburante e risparmi sui costi per la compagnia aerea.
Inoltre, il team ha collaborato con le API di Microsoft Azure OpenAI e con Databricks Dolly per creare una soluzione solida che soddisfi la governance dell'AI generativa, al fine di accelerare la crescita di successo di BlueSky e di prodotti simili con una gestione minima del cambiamento e una gestione efficiente dei prodotti di ML.
Il servizio API Microsoft Azure OpenAI offre funzionalità di download di embedding in ambiente sandbox per l'archiviazione in un archivio di documenti di database vettoriale. Dolly 2.0 di Databricks fornisce un meccanismo per l'ingegneria rapida, consentendo l'accesso basato sui ruoli di Unity Catalog ai documenti nell'archivio di documenti del database vettoriale. Utilizzando questo framework, qualsiasi utente JetBlue può accedere allo stesso chatbot nascosto dietro i protocolli SSO di Azure AD e alle Access Control List (ACL) di Databricks Unity Catalog. Ogni prodotto, incluso il gemello digitale in tempo reale BlueSky, viene fornito con LLM incorporati.
Implementando prodotti aziendali di IA e ML su Databricks utilizzando i dati nel lakehouse, JetBlue ha finora sbloccato un multiplo di ritorno sull'investimento (ROI) relativamente alto in due anni. Inoltre, Databricks consente ai team di Data Science e analitiche di prototipare, iterare e lanciare rapidamente pipeline di dati, Job e modelli di ML utilizzando il lakehouse, MLflow e Databricks SQL.
Il nostro team dedicato in JetBlue è entusiasta del futuro e si impegna a implementare le più recenti funzionalità all'avanguardia offerte da Databricks. Sfruttando questi progressi, puntiamo a portare l'esperienza dei nostri clienti a un livello superiore e a migliorare continuamente il valore complessivo che offriamo. Uno dei nostri obiettivi principali è ridurre il costo totale di proprietà (TCO), garantendo un ritorno ottimale sugli investimenti.
Unitevi a noi al Data + AI Summit 2023, dove durante il Keynote discuteremo della potenza della lakehouse, approfondiremo il nostro affascinante in tempo reale AI & ML Digital Twin Journey e forniremo approfondimenti su come abbiamo affrontato le complessità dei Large Language Model.
Guarda il video della nostra storia qui.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Notícias
December 23, 2024/8 min de leitura
Clientes
October 17, 2025/19 min de leitura