Autor dieses Blogs ist Sai Ravuru, Senior Manager of Data Science & Analytics bei JetBlue
Die Rolle von Daten in der Luftfahrtbranche hat einen langen Verlauf. Fluggesellschaften gehörten zu den ersten Anwendern von Mainframe-Computern, und heute hat sich ihr Dateneinsatz so weiterentwickelt, dass er alle Geschäftsbereiche unterstützt. Größtenteils dank der Qualität und Quantität der Daten gehören Fluggesellschaften zu den sichersten Verkehrsmitteln der Welt.
Fluggesellschaften müssen heute mehrere Variablen ausbalancieren, die in einem chronologischen Zusammenspiel miteinander auftreten:
Die Rolle von Daten und insbesondere von Analytics, KI und ML ist für Fluggesellschaften von entscheidender Bedeutung, um Kunden ein nahtloses Erlebnis zu bieten und gleichzeitig einen effizienten Betrieb für optimale Geschäftsziele aufrechtzuerhalten.
Fluggesellschaften sind aufgrund der Häufigkeit, des Volumens und der Vielfalt von Veränderungen eine der datengesteuertsten Branchen unserer heutigen Zeit, da Kunden auf diesen wichtigen Bestandteil unserer Verkehrsinfrastruktur angewiesen sind.
Für einen einzigen Flug, beispielsweise von New York nach London, müssen Hunderte von Entscheidungen auf der Grundlage von Faktoren getroffen werden, die Kunden, Flugbesatzungen, Flugzeugsensoren, aktuelle Wetterdaten und Live-Daten der Flugsicherung (ATC) umfassen. Eine große Disruption wie ein schwerer Wintersturm kann Tausende von Flügen in den gesamten USA beeinträchtigen. Daher ist es für Fluggesellschaften unerlässlich, sich auf Echtzeitdaten und KI & ML zu verlassen, um proaktive Entscheidungen in Echtzeit zu treffen.
Flugzeuge erzeugen im Laufe eines Tages Terabytes an IoT-Sensordaten. Kundeninteraktionen mit Buchungs- oder Self-Service-Kanälen, ständige betriebliche Änderungen aufgrund dynamischer Wetterbedingungen und Einschränkungen im Flugverkehr sind nur einige der Aspekte, die die Komplexität, das Volumen, die Vielfalt und die Geschwindigkeit der Daten bei einer Fluggesellschaft wie JetBlue verdeutlichen.
Mit sechs Schwerpunktstädten (Boston, Fort Lauderdale, Los Angeles, New York City, Orlando, San Juan) und einer hohen Flugkonzentration im verkehrsreichsten Luftkorridor der Welt, New York City, kann JetBlue im Jahr 2023 auf Folgendes verweisen:

Aufgrund der strategischen Bedeutung von Daten bei JetBlue besteht das Datenteam aus den Teams für Datenintegration, Data Engineering, Commercial Data Science, Betriebs Data Science, KI & ML Engineering und Business Intelligence, die direkt an den CTO berichten.
Der aktuelle Technologiestack von JetBlue ist hauptsächlich auf Azure ausgerichtet, wobei eine Multi-Cloud-Data-Warehouse- und Lakehouse-Architektur gleichzeitig für verschiedene Zwecke ausgeführt wird. Sowohl interne als auch externe Daten werden in der Databricks Data Intelligence Platform in Form von Batch-, Near-Real-Time- und Echtzeit-Feeds kontinuierlich angereichert.
Die Verwendung von Delta-Live-Table zum Extrahieren, Laden und Daten transformieren ermöglicht es Data Engineers und Data Scientists, eine breite Palette von Latenz-SLA-Anforderungen zu erfüllen und gleichzeitig Daten für nachgelagerte Anwendungen, KI- und ML-Pipelines, BI-Dashboards und Analystenbedürfnisse bereitzustellen.
JetBlue verwendet die intern entwickelte BlueML-Bibliothek mit AutoML-, AutoDeploy- und Online-Feature Store-Features sowie MLflow, APIs für die Modellregistrierung und benutzerdefinierte Abhängigkeiten für das Training und die Inferenz von KI- und ML-Modellen.
Einblicke werden über REST-APIs genutzt, die Tableau-Dashboards mit Databricks SQL serverlos compute, einer schnellen semantischen Ebene und/oder angewendeten ML-Serving-APIs verbinden.
Die Einführung neuer ML-Produkte geht oft mit robusten Change-Management-Prozessen einher, insbesondere in Geschäftsbereichen, die aufgrund der Sensibilität der Daten und der damit verbundenen Entscheidungsfindung streng durch die Federal Air Regulations und andere Gesetze reguliert werden. Traditionell umfasste ein solches Change Management eine Reihe von Workshops, Trainings, Produktfeedback und spezialisiertere Möglichkeiten für Benutzer, mit dem Produkt zu interagieren, wie z. B. rollenspezifische KPIs und Dashboards.
Angesichts der jüngsten Fortschritte im Bereich der generativen KI wurden das traditionelle Change-Management und das ML-Produktmanagement grundlegend verändert. Benutzer können jetzt hochentwickelte Technologie für große Sprachmodelle (Large Language Models, LLMs) verwenden, um Zugriff auf rollenspezifische KPIs und Informationen zu erhalten, einschließlich Hilfe in natürlicher Sprache, die ihnen vertraut ist. Dies reduziert drastisch das Training für eine erfolgreiche Produktskalierung bei den Nutzern, die Bearbeitungszeit für Produktfeedback und vereinfacht vor allem den Zugriff auf relevante Zusammenfassungen von Erkenntnissen; der Zugriff auf Informationen wird nicht mehr in Klicks, sondern in der Anzahl der Wörter in der Frage gemessen.
Um den Bedarf an generativer KI und ML zu decken, konzentrierte sich das KI- und ML-Engineering-Team von JetBlue auf die Bewältigung der unternehmensweiten Herausforderungen.
| Geschäftsbereiche | Strategische(s) Produkt(e) | Strategische(s) Ergebnis(se) |
| Kommerzielle Data Science |
|
|
| Betrieb Data Science |
|
|
| KI- & ML-Engineering |
|
|
| Business Intelligence |
|
|
Mithilfe dieser Architektur hat JetBlue die Bereitstellung von KI- und ML-Lösungen für eine Vielzahl von Anwendungsfällen in vier Geschäftsbereichen beschleunigt, die jeweils über ein eigenes KI- und ML-Team verfügen. Die folgenden sind die grundlegenden Funktionen der Geschäftsbereiche:
Jeder Geschäftsbereich unterstützt mehrere strategische Produkte, die regelmäßig von der JetBlue-Führung priorisiert werden, um KPIs festzulegen, die zu effektiven strategischen Ergebnissen führen.
Daten- und KI-Technologie sind für proaktive Echtzeitentscheidungen von entscheidender Bedeutung. Die Nutzung veralteter Datenarchitekturplattformen beeinträchtigt jedoch die Geschäftsergebnisse.
Die Daten von JetBlue werden hauptsächlich über das Multi-Cloud-Data-Warehouse bereitgestellt, was zu mangelnder Flexibilität bei kompliziertem Design, Latenzänderungen und Kostenskalierbarkeit führt.
![]() | Hohe Latenz – eine Latenz von 10 Minuten in der Datenarchitektur kostet das Unternehmen jährlich Millionen von Dollar. |
![]() | Komplexe Architektur – Mehrstufige Datenbewegungen über mehrere Plattformen und Produkte hinweg sind für Echtzeit-Streaming-Anwendungsfälle ineffizient, da sie komplex und kostenintensiv sind. |
![]() | Hohe Plattform-TCO – der Unterhalt zahlreicher Anbieter-Datenplattformen und Ressourcen für die Verwaltung der Datenplattform verursacht hohe Betriebskosten. |
![]() | Skalierung – die aktuelle Datenarchitektur hat Skalierungsprobleme bei der Verarbeitung von Exabytes (großen Datenmengen), die von vielen Flügen erzeugt werden. |
Aufgrund mangelnder Hydrierung des Online-Feature-Stores hinderte die hohe Latenz in der traditionellen Architektur unsere Data Scientists daran, skalierbare ML-Trainings- und Inferenz-Pipelines zu erstellen. Als Data Scientists und KI- & ML-Ingenieure im Lakehouse die Freiheit erhielten, ML-Modelle enger an die Medallion-Architektur anzubinden, konnte die Effizienz der Go-to-Market-Strategie gesteigert werden.
„Komplexe Architekturen wie dynamische Schemaverwaltung und zustandsorientierte/zustandslose Transformationen waren mit einer klassischen Multi-Cloud-Data-Warehouse-Architektur schwierig zu implementieren. Sowohl Data Scientists als auch Data Engineers können solche Änderungen jetzt mithilfe skalierbarer Delta Live Tables ohne Einstiegshürden durchführen.“ Die Möglichkeit, zwischen SQL, Python und PySpark zu wechseln, hat die Produktivität des Datenteams von JetBlue erheblich gesteigert.
Da die Pipelines nicht schnell skalierbar waren, führte der Mangel an einem skalierbaren Open-Source-Design in Multi-Cloud-Data-Warehouses zu komplexen Ursachenanalysen (RCAs) bei Pipeline-Ausfällen, ineffizienten Tests und Fehlerbehebungen und letztendlich zu einem höheren TCO. Das Datenteam verfolgte während der Umstellung die Compute-Kosten auf dem MCDW im Vergleich zu Databricks genau; als mehr Echtzeit- und hochvolumige Daten-Feeds für die Nutzung aktiviert wurden, stiegen die ETL/ELT-Kosten in einem proportional niedrigeren und linearen Verhältnis im Vergleich zu den ETL/ELT-Kosten des alten Multi-Cloud-Cloud Data Warehouse.
Data Governance ist das größte Hindernis für die Einführung von generativer KI und Machine Learning in jeder Organisation. Da der rollenbasierte Zugriff auf wichtige Daten und Erkenntnisse in stark regulierten Branchen wie der Luftfahrt streng überwacht wird, sind diese Sektoren stolz auf effektive Data-Governance-Verfahren. Die Notwendigkeit kuratierter Embeddings, die nur in hochentwickelten Systemen mit mehr als 100 Milliarden Parametern wie chatGPT von OpenAI möglich sind, verkompliziert die Data Governance der Organisation. Für eine effektive Governance der generativen KI ist eine Kombination aus OpenAI für Embeddings, Dolly 2.0 von Databricks für schnelles Engineering und dem Offline-/Online-Dokumenten-Repository von JetBlue erforderlich.
Mit der Databricks Data Intelligence Platform als zentralem Hub für alle Streaming-Anwendungsfälle liefert JetBlue effizient mehrere ML- und Analyseprodukte/-einblicke, indem Tausende von Attributen in Echtzeit verarbeitet werden. Zu diesen Attributen gehören Daten zu Flügen, Kunden, Flugbesatzungen, Flugverkehr und Wartung.
Das lakehouse stellt über Delta-Live-Tables Echtzeitdaten bereit und ermöglicht so die Entwicklung von ML-Pipelines für historisches Training und Echtzeit-Inferenz. Diese Pipelines werden als ML-Serving-APIs angewendet, die kontinuierlich einen Snapshot des JetBlue-Systemnetzwerks aktualisieren. Jede betriebliche Auswirkung, die sich aus verschiedenen steuerbaren und unkontrollierbaren Variablen ergibt, wie z. B. schnell wechselndes Wetter, Wartungsereignisse an Flugzeugen mit Anomalien, Flugbesatzungen, die sich den gesetzlichen Dienstzeitgrenzen nähern, oder ATC-Beschränkungen für An- und Abflüge, wird im gesamten Netzwerk weitergegeben. Dies ermöglicht präventive Anpassungen auf der Grundlage prognostizierter Alerts.
Echtzeit-Streams von Wetterdaten, Flugzeugsensoren, FAA-Datenfeeds, JetBlue-Betriebsdaten und mehr werden für BlueSky verwendet – das weltweit erste KI- und ML-Betriebssystem, das einen digitalen Zwilling für einen effizienten und sicheren Betrieb orchestriert. JetBlue hat über 10 ML-Produkte (mehrere Modelle für jedes Produkt) in verschiedenen Vertikalen in der Produktion, einschließlich dynamischer Preisgestaltung, Empfehlungs-Engines für Kunden, Lieferkettenoptimierung, NLP zur Analyse der Kundenstimmung und einiger mehr.
Der digitale Zwilling für den BlueSky-Betrieb ist eines der komplexesten Produkte, das derzeit vom Datenteam bei JetBlue implementiert wird, und bildet das Rückgrat der Prognose- und Simulationsfähigkeiten für den Flugbetrieb von JetBlue.
BlueSky, das jetzt schrittweise eingeführt wird, erschließt bei JetBlue betriebliche Effizienzen durch proaktive und optimale Entscheidungsfindung, was zu höherer Kundenzufriedenheit, Zufriedenheit der Flugbesatzung, Treibstoffeffizienz und Kosteneinsparungen für die Fluggesellschaft führt.
Zusätzlich arbeitete das Team mit den Microsoft Azure OpenAI APIs und Databricks Dolly zusammen, um eine robuste Lösung zu schaffen, die der Governance für generative KI entspricht, um das erfolgreiche Wachstum von BlueSky und ähnlichen Produkten bei minimalem Change Management und effizientem ML-Produktmanagement zu beschleunigen.
Der Microsoft Azure OpenAI API-Dienst bietet gesandboxte download-Funktionen für Embeddings zur Speicherung in einem Vektordatenbank-Dokumentenspeicher. Dolly 2.0 von Databricks ermöglicht schnelles Engineering durch rollenbasierten Zugriff auf Dokumente im Dokumentspeicher der Vektordatenbank über den Unity Catalog. Mithilfe dieses Frameworks kann jeder JetBlue-Benutzer auf denselben Chatbot zugreifen, der sich hinter den Azure AD SSO-Protokollen und den Access Control Lists (ACLs) des Databricks Unity Catalog verbirgt. Jedes Produkt, einschließlich des digitalen Echtzeit-Zwillings BlueSky, verfügt über eingebettete LLMs.
Durch die Anwendung von KI- und ML-Unternehmensprodukten auf Databricks mit Daten aus dem lakehouse hat JetBlue bisher innerhalb von zwei Jahren einen relativ hohen Return on Investment (ROI) erzielt. Zudem ermöglicht Databricks den Data Science- und Analytics-Teams, Datenpipelines, Jobs und ML-Modelle mithilfe des Lakehouse, MLflow und Databricks SQL schnell zu prototypisieren, zu iterieren und zu starten.
Unser engagiertes Team bei JetBlue blickt gespannt in die Zukunft, während wir daran arbeiten, die neuesten, innovativsten Features von Databricks zu implementieren. Durch die Nutzung dieser Fortschritte wollen wir das Erlebnis für unsere Kunden auf ein neues Niveau heben und den Gesamtwert, den wir bieten, kontinuierlich verbessern. Eines unserer Hauptziele ist es, unsere Gesamtbetriebskosten (TCO) zu senken, um sicherzustellen, dass unsere Kunden eine optimale Rendite für ihre Investitionen erhalten.
Besuchen Sie uns auf dem Data + AI Summit 2023. Dort werden wir in der Keynote die Leistungsfähigkeit des Lakehouse erörtern, tief in unsere faszinierende Echtzeit-KI- & ML-Digital-Twin-Reise eintauchen und Einblicke geben, wie wir die Komplexität von Large Language Models gemeistert haben.
Sehen Sie sich das Video unserer Geschichte hier an.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Notícias
December 23, 2024/8 min de leitura