Ir al contenido principal

Acelerando la innovación en JetBlue con Databricks

jetblue x databricks

Publicado: 22 de junio de 2023

Clientes13 min de lectura

 

El papel de los datos en el sector de la aviación tiene una larga historia. Las aerolíneas fueron de las primeras en usar computadoras mainframe y, hoy en día, su uso de los datos ha evolucionado para dar soporte a todas las áreas del negocio. Gracias, en gran parte, a la calidad y la cantidad de los datos, las aerolíneas se encuentran entre los medios de transporte más seguros del mundo.

Actualmente, las aerolíneas deben equilibrar diversas variables que ocurren en tándem en una danza cronológica: 

  • Los clientes necesitan hacer conexión con sus vuelos
  • Las maletas deben cargarse en los vuelos y rastrearse hasta el mismo destino que los clientes.
  • Tripulaciones de vuelo (p. ej., pilotos, asistentes de vuelo, tripulaciones en traslado) deben estar en sus puestos para sus vuelos y, a la vez, cumplir con los requisitos legales de servicio y descanso de la FAA
  • Las aeronaves se monitorean constantemente para detectar necesidades de mantenimiento, al tiempo que se garantiza que el inventario de piezas esté disponible donde se necesite.
  • El clima es dinámico en cientos de ubicaciones y rutas críticas, y los pronósticos son vitales para la seguridad y eficiencia de las operaciones de vuelo.
  • Las agencias gubernamentales actualizan regularmente las restricciones del espacio aéreo.
  • Las autoridades aeroportuarias actualizan regularmente la infraestructura del aeropuerto
  • Las agencias gubernamentales actualizan regularmente las restricciones de slots en los aeropuertos y se ajustan a las tensiones geopolíticas.
  • Las fuerzas macroeconómicas afectan constantemente el precio del combustible para aviones Jet-A y de los combustibles de aviación sostenibles (SAF).
  • Las situaciones durante el vuelo, por una variedad de razones, impulsan ajustes activos del sistema de la aerolínea.

El rol de los datos y, en particular, de la analítica, la IA y el ML es clave para que las aerolíneas ofrezcan una experiencia fluida a los clientes y, a la vez, mantengan operaciones eficientes para lograr objetivos de negocio óptimos.

Las aerolíneas son las industrias más impulsadas por los datos en el mundo actual debido a la frecuencia, el volumen y la variedad de los cambios que ocurren, ya que los clientes dependen de este componente vital de nuestra infraestructura de transporte.

Para un solo vuelo, por ejemplo, de Nueva York a Londres, se deben tomar cientos de decisiones basadas en factores que abarcan a los clientes, las tripulaciones, los sensores de la aeronave y los datos en tiempo real sobre el clima y el control del tráfico aéreo (ATC). Una gran interrupción, como una brutal tormenta de invierno, puede afectar a miles de vuelos en todo EE. UU. Por lo tanto, es vital que las aerolíneas dependan de los datos en tiempo real, la IA y el ML para tomar decisiones proactivas en tiempo real.

Las aeronaves generan terabytes de datos de sensores de IoT en el transcurso de un día, y las interacciones de los clientes con los canales de reserva o de autoservicio, los constantes cambios operativos derivados de las condiciones meteorológicas dinámicas y las restricciones del tráfico aéreo son solo algunos de los elementos que destacan la complejidad, el volumen, la variedad y la velocidad de los datos en una aerolínea como JetBlue.
 

Ciudades foco
JetBlue Airway’s Routes

Con seis ciudades foco (Boston, Fort Lauderdale, Los Ángeles, Nueva York, Orlando, San Juan) y una gran concentración de vuelos en el corredor aéreo más transitado del mundo, Nueva York, en 2023 JetBlue ha:

métricas

El estado de los datos y la IA en JetBlue

Debido a la importancia estratégica de los datos en JetBlue, el equipo de datos se compone de los equipos de Integración de Datos, Ingeniería de Datos, Ciencia de Datos Comerciales, Ciencia de Datos de Operaciones, ingeniería de IA & ML e Inteligencia de Negocios, que reportan directamente al CTO.

El stack tecnológico actual de JetBlue se centra principalmente en Azure, con una arquitectura de Data Warehouse Multi-Cloud y lakehouse que se ejecutan simultáneamente para diversos fines. Tanto los datos internos como los externos se enriquecen continuamente en la Databricks Data Intelligence Platform en forma de lotes y de transmisiones en tiempo casi real y en tiempo real.

El uso de Delta Live Tables para extraer, cargar y transformar datos permite que los ingenieros de datos y los científicos de datos cumplan con una amplia gama de requisitos de SLA de latencia mientras alimentan con datos a las aplicaciones posteriores, las canalizaciones de IA y ML, los paneles de BI y las necesidades de los analistas.

JetBlue utiliza la biblioteca BlueML de desarrollo interno con funciones de AutoML, AutoDeploy y de almacén de características en línea, así como MLflow, las API de registro de modelos y las dependencias personalizadas para el entrenamiento y la inferencia de modelos de IA y ML.

Arquitectura Jet Blue
JetBlue’s Data, Analytics and Machine Learning Architecture

Los insights se consumen mediante las API de REST que conectan los dashboards de Tableau con  Databricks SQL serverless compute, una capa semántica de servicio rápido o las API de servicio de ML implementadas.  

El despliegue de nuevos productos de ML suele ir acompañado de sólidos procesos de gestión de cambios, particularmente en las líneas de negocio estrechamente regidas por las Regulaciones Aéreas Federales y otras leyes debido a la sensibilidad de los datos y la respectiva toma de decisiones. Tradicionalmente, dicha gestión de cambios ha implicado una serie de talleres, capacitaciones, comentarios sobre el producto y formas más especializadas para que los usuarios interactúen con el producto, como KPI y tableros específicos para cada rol.

Dados los avances recientes en la IA generativa, la gestión del cambio tradicional y la gestión de productos de ML se han visto alteradas. Ahora los usuarios pueden utilizar la sofisticada tecnología de modelos grandes de lenguaje (LLM) para acceder a información y KPI específicos de su rol, e incluso obtener ayuda utilizando el lenguaje natural con el que están familiarizados. Esto reduce drásticamente la capacitación requerida para el escalamiento exitoso del producto entre los usuarios, el tiempo de respuesta para los comentarios sobre el producto y, lo que es más importante, simplifica el acceso a resúmenes de insights relevantes; el acceso a la información ya no se mide en clics, sino en el número de palabras de la pregunta.

Para abordar las necesidades de la IA generativa y el ML, el equipo de ingeniería de IA y ML de JetBlue se centró en resolver los desafíos empresariales.

Líneas de negocio Producto(s) estratégico(s)Resultado(s) estratégico(s)
Ciencia de Datos Comercial
  • Precios dinámicos de tarifas
  • Recomendación de productos para el cliente
  • Venta adicional/venta cruzada/recaptura en el embudo de ventas multicanal
  • Pronóstico de ingresos y demanda
  • Hacer crecer las fuentes de ingresos nuevas y existentes
  • Mejorar la experiencia del cliente mediante la personalización y la optimización del tiempo de embarque, y priorizar el enfoque de resolución para el cliente.
Ciencia de datos de operaciones
  • Gemelo digital de operaciones de la aerolínea (BlueSky)
  • Pronóstico de ETA y ETD
  • Herramientas comunes de conciencia situacional
  • Optimización de piezas e inventario
  • Pronóstico de eficiencia del combustible
  • Optimización de red
  • Mejorar la eficiencia operativa al reducir el tiempo de espera en las puertas, realizar asignaciones de tripulación eficientes, disminuir los retrasos de los vuelos y reducir las emisiones de CO2 mediante el uso óptimo del combustible.
Ingeniería de IA y ML
  • LLM de descubrimiento de datos (Radar)
  • LLM de interacción con el producto
  • AutoML+AutoDeploy (BlueML)
  • Feature Store
  • Automatización de CI/CD  
  • Acelerar la estrategia interna de lanzamiento de productos al mercado al reducir el tiempo para el MVP, la iteración y el lanzamiento.
  • I+D de nuevos enfoques de IA y ML en JetBlue
Inteligencia empresarial
  • Paneles en tiempo real
  • Soporte empresarial de analítica
  • Upskilling/cross-skilling empresarial
  • Informar KPI en tiempo real a los ejecutivos para acelerar la toma de decisiones
  • Aumentar el acceso y el conocimiento de los analistas sobre los datos almacenados en el lakehouse y los Feature Stores: mejorar y diversificar las habilidades de los analistas.

Con esta arquitectura, JetBlue ha acelerado las implementaciones de IA y ML en una amplia gama de casos de uso que abarcan cuatro líneas de negocio, cada una con su propio equipo de IA y ML. Las siguientes son las funciones fundamentales de las líneas de negocio:

  • Ciencia de Datos Comercial (CDS) - Crecimiento de los ingresos
  • Ciencia de datos de operaciones (ODS): Reducción de costos
  • Ingeniería de IA y ML: optimización de la implementación de productos para el lanzamiento al mercado
  • Inteligencia de negocios: generación de informes, escalado empresarial y soporte

Cada línea de negocio admite múltiples productos estratégicos que el liderazgo de JetBlue prioriza regularmente para establecer KPI que conducen a resultados estratégicos eficaces.

Por qué migrar desde una arquitectura de almacén de datos multinube

Webinar

Databricks 101: Una guía práctica

Los datos y la tecnología de IA son fundamentales para tomar decisiones proactivas en tiempo real; sin embargo, el uso de plataformas de arquitectura de datos heredadas impacta los resultados del negocio.

Los datos de JetBlue se sirven principalmente a través del Multi Cloud Data Warehouse, lo que resulta en una falta de flexibilidad para diseños complicados, cambios de latencia y escalabilidad de costos. 


Latencia
Alta latencia: una latencia de 10 minutos en la arquitectura de datos le cuesta a la organización millones de dólares por año.

Arquitectura compleja
Arquitectura compleja: las múltiples etapas de movimiento de datos a través de múltiples plataformas y productos son ineficientes para los casos de uso de streaming en tiempo real, ya que son complejas y de costo prohibitivo.

TCO alto de la plataforma
TCO de plataforma alto: tener numerosas plataformas de datos de proveedores y recursos para administrar la plataforma de datos genera altos costos operativos.

Aumento de escala
Escalado: la arquitectura de datos actual tiene problemas de escalabilidad al procesar exabytes (grandes cantidades de datos) generados por muchos vuelos.  

Debido a la falta de hidratación del almacén de características en línea, la alta latencia en la arquitectura tradicional impidió que nuestros científicos de datos crearan canalizaciones escalables de entrenamiento e inferencia de ML. Cuando a los científicos de datos y a los ingenieros de IA & ML del lakehouse se les dio la libertad de integrar los modelos de ML más cerca de la arquitectura medallion, se potenció la eficiencia de la estrategia de salida al mercado.

“Las arquitecturas complejas, como la gestión dinámica de esquemas y las transformaciones con estado y sin estado, fueron difíciles de implementar con una arquitectura clásica de almacén de datos multicloud. Tanto los científicos de datos como los ingenieros de datos ahora pueden realizar dichos cambios con DLT escalable sin barreras de entrada”. La opción de alternar entre SQL, Python y PySpark ha aumentado considerablemente la productividad del equipo de datos de JetBlue.

Debido a la incapacidad de los pipelines para escalar rápidamente, la falta de un diseño escalable de código abierto en los almacenes de datos multinube resultó en análisis de causa raíz (RCA) complejos cuando los pipelines fallaban, pruebas y resolución de problemas ineficientes y, en última instancia, en un TCO más alto. El equipo de datos siguió de cerca los gastos de computación en el MCDW frente a Databricks durante la transición; a medida que se activaban más fuentes de datos en tiempo real y de gran volumen para su consumo, los costos de ETL/ELT aumentaron a un ritmo proporcionalmente más bajo y lineal en comparación con los costos de ETL/ELT del Multi Cloud Data Warehouse heredado.

La gobernanza de datos es el mayor obstáculo para implementar la IA generativa y el machine learning en cualquier organización. Debido a que el acceso basado en roles a los datos y la información cruciales se supervisa de cerca en negocios altamente regulados como la aviación, estos sectores se enorgullecen de sus procedimientos eficaces de gobernanza de datos. La necesidad de embeddings seleccionados, que solo son posibles en sistemas sofisticados con más de 100 mil millones de parámetros, como chatGPT de OpenAI, complica la gobernanza de datos de la organización. Se requiere una combinación de OpenAI para embeddings, Dolly 2.0 de Databricks para ingeniería rápida y el repositorio de documentos en línea y fuera de línea de JetBlue para una gobernanza eficaz de la IA generativa.

Arquitectura anterior de almacén de datos multinube

Anterior data warehouse en la nube
Previous Data Architecture with MCDW as central data store

Impacto de la arquitectura de Lakehouse 

Con la plataforma de inteligencia de datos de Databricks como centro principal para todos los casos de uso de streaming, JetBlue entrega de manera eficiente varios productos e información de análisis y ML al procesar miles de atributos en tiempo real. Estos atributos incluyen datos de vuelos, clientes, tripulación de vuelo, tráfico aéreo y mantenimiento.

El lakehouse proporciona datos en tiempo real a través de Delta Live Tables, lo que permite el desarrollo de canalizaciones de ML para el entrenamiento histórico y la inferencia en tiempo real. Estos pipelines se implementan como API de servicio de ML que actualizan continuamente una instantánea de la red del sistema de JetBlue. Cualquier impacto operativo resultante de diversas variables controlables y no controlables, como condiciones meteorológicas que cambian rápidamente, eventos de mantenimiento de aeronaves con anomalías, tripulaciones de vuelo que se acercan a los límites legales de servicio o restricciones de ATC en las llegadas y salidas, se propaga por toda la red. Esto permite realizar ajustes preventivos basados en alertas pronosticadas.

Arquitectura de Lakehouse actual

Arquitectura de datos actual
Current Data Architecture built around the lakehouse for data, analytics and AI 

Los flujos en tiempo real de datos meteorológicos, sensores de aeronaves, fuentes de datos de la FAA, operaciones de JetBlue y más, se utilizan para el primer sistema operativo de IA y ML del mundo que orquesta un gemelo digital, conocido como BlueSky, para lograr operaciones eficientes y seguras. JetBlue tiene más de 10 productos de ML (con múltiples modelos para cada producto) en producción en diversas verticales, como fijación dinámica de precios, motores de recomendación para clientes, optimización de la cadena de suministro, NLP para análisis del sentimiento del cliente y varios más.

El gemelo digital de operaciones BlueSky es uno de los productos más complejos que el equipo de datos está implementando actualmente en JetBlue y constituye la columna vertebral de las capacidades de previsión y simulación de las operaciones aéreas de la empresa.

Sistema operativo de IA BlueSky de JetBlue
JetBlue’s BlueSky AI Operating System 

BlueSky, que ahora se está implementando por fases, está generando eficiencias operativas en JetBlue a través de la toma de decisiones proactiva y óptima, lo que resulta en una mayor satisfacción del cliente y de la tripulación de vuelo, eficiencia de combustible y ahorro de costos para la aerolínea.

Además, el equipo colaboró con las API de Microsoft Azure OpenAI y Databricks Dolly para crear una solución robusta que cumple con la gobernanza de la IA generativa para acelerar el crecimiento exitoso de BlueSky y productos similares con una mínima gestión del cambio y una gestión eficiente de productos de ML.  

 

Arquitectura del sistema de IA generativa de JetBlue
JetBlue’s Generative AI system architecture

El servicio de API de Microsoft Azure OpenAI ofrece capacidades de descarga de embeddings en un entorno de pruebas (sandbox) para almacenarlos en un almacén de documentos de base de datos vectorial. Dolly 2.0 de Databricks proporciona un mecanismo para una ingeniería rápida al permitir el acceso basado en roles de Unity Catalog a los documentos en el almacén de documentos de la base de datos vectorial. Con este framework, cualquier usuario de JetBlue puede acceder al mismo chatbot oculto detrás de los protocolos de SSO de Azure AD y las listas de control de acceso (ACL) de Unity Catalog de Databricks. Cada producto, incluido el gemelo digital en tiempo real BlueSky, incluye LLM integrados.
 

El chatbot de JetBlue basado en las API de Microsoft Azure OpenAI y Databricks Dolly
JetBlue’s Chatbot based on  Microsoft Azure OpenAI APIs and Databricks Dolly

Al implementar productos empresariales de IA y ML en Databricks con datos del lakehouse, JetBlue ha logrado hasta ahora un múltiplo de retorno sobre la inversión (ROI) relativamente alto en un plazo de dos años. Además, Databricks permite a los equipos de ciencia de datos y análisis crear prototipos, iterar y lanzar rápidamente pipelines de datos, trabajos y modelos de ML usando el lakehouse, MLflow y Databricks SQL.

Nuestro equipo dedicado de JetBlue está entusiasmado con el futuro mientras nos esforzamos por implementar las características más innovadoras que ofrece Databricks. Al aprovechar estos avances, buscamos llevar la experiencia de nuestros clientes a otro nivel y mejorar continuamente el valor general que ofrecemos. Uno de nuestros objetivos principales es reducir nuestro costo total de propiedad (TCO), para garantizar que reciban retornos óptimos de sus inversiones.

Acompáñenos en el Data + AI Summit 2023, donde hablaremos del poder del lakehouse durante la Keynote, profundizaremos en nuestro fascinante recorrido del gemelo digital de IA y ML en tiempo real y brindaremos información sobre cómo sorteamos las complejidades de los modelos de lenguaje grandes

 

Mira el video de nuestra historia aquí

 

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Databricks Named a Leader in 2024 Gartner® Magic Quadrant™ for Cloud Database Management Systems

Notícias

23 de diciembre de 2024/8 min de lectura

Databricks nomeada líder no Quadrante Mágico da Gartner® de 2024 para sistemas de gerenciamento de banco de dados em nuvem

How HP Industrial Print Transformed Its Data Platform with Databricks SQL

Clientes

6 de noviembre de 2025/6 min de lectura

Como a HP Industrial Print Transformou sua Plataforma de Dados com o Databricks SQL