El autor de este blog es Sai Ravuru, gerente sénior de Ciencia de Datos y Analítica en JetBlue
El papel de los datos en el sector de la aviación tiene una larga historia. Las aerolíneas fueron de las primeras en usar computadoras mainframe y, hoy en día, su uso de los datos ha evolucionado para dar soporte a todas las áreas del negocio. Gracias, en gran parte, a la calidad y la cantidad de los datos, las aerolíneas se encuentran entre los medios de transporte más seguros del mundo.
Actualmente, las aerolíneas deben equilibrar diversas variables que ocurren en tándem en una danza cronológica:
El rol de los datos y, en particular, de la analítica, la IA y el ML es clave para que las aerolíneas ofrezcan una experiencia fluida a los clientes y, a la vez, mantengan operaciones eficientes para lograr objetivos de negocio óptimos.
Las aerolíneas son las industrias más impulsadas por los datos en el mundo actual debido a la frecuencia, el volumen y la variedad de los cambios que ocurren, ya que los clientes dependen de este componente vital de nuestra infraestructura de transporte.
Para un solo vuelo, por ejemplo, de Nueva York a Londres, se deben tomar cientos de decisiones basadas en factores que abarcan a los clientes, las tripulaciones, los sensores de la aeronave y los datos en tiempo real sobre el clima y el control del tráfico aéreo (ATC). Una gran interrupción, como una brutal tormenta de invierno, puede afectar a miles de vuelos en todo EE. UU. Por lo tanto, es vital que las aerolíneas dependan de los datos en tiempo real, la IA y el ML para tomar decisiones proactivas en tiempo real.
Las aeronaves generan terabytes de datos de sensores de IoT en el transcurso de un día, y las interacciones de los clientes con los canales de reserva o de autoservicio, los constantes cambios operativos derivados de las condiciones meteorológicas dinámicas y las restricciones del tráfico aéreo son solo algunos de los elementos que destacan la complejidad, el volumen, la variedad y la velocidad de los datos en una aerolínea como JetBlue.
Con seis ciudades foco (Boston, Fort Lauderdale, Los Ángeles, Nueva York, Orlando, San Juan) y una gran concentración de vuelos en el corredor aéreo más transitado del mundo, Nueva York, en 2023 JetBlue ha:

Debido a la importancia estratégica de los datos en JetBlue, el equipo de datos se compone de los equipos de Integración de Datos, Ingeniería de Datos, Ciencia de Datos Comerciales, Ciencia de Datos de Operaciones, ingeniería de IA & ML e Inteligencia de Negocios, que reportan directamente al CTO.
El stack tecnológico actual de JetBlue se centra principalmente en Azure, con una arquitectura de Data Warehouse Multi-Cloud y lakehouse que se ejecutan simultáneamente para diversos fines. Tanto los datos internos como los externos se enriquecen continuamente en la Databricks Data Intelligence Platform en forma de lotes y de transmisiones en tiempo casi real y en tiempo real.
El uso de Delta Live Tables para extraer, cargar y transformar datos permite que los ingenieros de datos y los científicos de datos cumplan con una amplia gama de requisitos de SLA de latencia mientras alimentan con datos a las aplicaciones posteriores, las canalizaciones de IA y ML, los paneles de BI y las necesidades de los analistas.
JetBlue utiliza la biblioteca BlueML de desarrollo interno con funciones de AutoML, AutoDeploy y de almacén de características en línea, así como MLflow, las API de registro de modelos y las dependencias personalizadas para el entrenamiento y la inferencia de modelos de IA y ML.
Los insights se consumen mediante las API de REST que conectan los dashboards de Tableau con Databricks SQL serverless compute, una capa semántica de servicio rápido o las API de servicio de ML implementadas.
El despliegue de nuevos productos de ML suele ir acompañado de sólidos procesos de gestión de cambios, particularmente en las líneas de negocio estrechamente regidas por las Regulaciones Aéreas Federales y otras leyes debido a la sensibilidad de los datos y la respectiva toma de decisiones. Tradicionalmente, dicha gestión de cambios ha implicado una serie de talleres, capacitaciones, comentarios sobre el producto y formas más especializadas para que los usuarios interactúen con el producto, como KPI y tableros específicos para cada rol.
Dados los avances recientes en la IA generativa, la gestión del cambio tradicional y la gestión de productos de ML se han visto alteradas. Ahora los usuarios pueden utilizar la sofisticada tecnología de modelos grandes de lenguaje (LLM) para acceder a información y KPI específicos de su rol, e incluso obtener ayuda utilizando el lenguaje natural con el que están familiarizados. Esto reduce drásticamente la capacitación requerida para el escalamiento exitoso del producto entre los usuarios, el tiempo de respuesta para los comentarios sobre el producto y, lo que es más importante, simplifica el acceso a resúmenes de insights relevantes; el acceso a la información ya no se mide en clics, sino en el número de palabras de la pregunta.
Para abordar las necesidades de la IA generativa y el ML, el equipo de ingeniería de IA y ML de JetBlue se centró en resolver los desafíos empresariales.
| Líneas de negocio | Producto(s) estratégico(s) | Resultado(s) estratégico(s) |
| Ciencia de Datos Comercial |
|
|
| Ciencia de datos de operaciones |
|
|
| Ingeniería de IA y ML |
|
|
| Inteligencia empresarial |
|
|
Con esta arquitectura, JetBlue ha acelerado las implementaciones de IA y ML en una amplia gama de casos de uso que abarcan cuatro líneas de negocio, cada una con su propio equipo de IA y ML. Las siguientes son las funciones fundamentales de las líneas de negocio:
Cada línea de negocio admite múltiples productos estratégicos que el liderazgo de JetBlue prioriza regularmente para establecer KPI que conducen a resultados estratégicos eficaces.
Los datos y la tecnología de IA son fundamentales para tomar decisiones proactivas en tiempo real; sin embargo, el uso de plataformas de arquitectura de datos heredadas impacta los resultados del negocio.
Los datos de JetBlue se sirven principalmente a través del Multi Cloud Data Warehouse, lo que resulta en una falta de flexibilidad para diseños complicados, cambios de latencia y escalabilidad de costos.
![]() | Alta latencia: una latencia de 10 minutos en la arquitectura de datos le cuesta a la organización millones de dólares por año. |
![]() | Arquitectura compleja: las múltiples etapas de movimiento de datos a través de múltiples plataformas y productos son ineficientes para los casos de uso de streaming en tiempo real, ya que son complejas y de costo prohibitivo. |
![]() | TCO de plataforma alto: tener numerosas plataformas de datos de proveedores y recursos para administrar la plataforma de datos genera altos costos operativos. |
![]() | Escalado: la arquitectura de datos actual tiene problemas de escalabilidad al procesar exabytes (grandes cantidades de datos) generados por muchos vuelos. |
Debido a la falta de hidratación del almacén de características en línea, la alta latencia en la arquitectura tradicional impidió que nuestros científicos de datos crearan canalizaciones escalables de entrenamiento e inferencia de ML. Cuando a los científicos de datos y a los ingenieros de IA & ML del lakehouse se les dio la libertad de integrar los modelos de ML más cerca de la arquitectura medallion, se potenció la eficiencia de la estrategia de salida al mercado.
“Las arquitecturas complejas, como la gestión dinámica de esquemas y las transformaciones con estado y sin estado, fueron difíciles de implementar con una arquitectura clásica de almacén de datos multicloud. Tanto los científicos de datos como los ingenieros de datos ahora pueden realizar dichos cambios con DLT escalable sin barreras de entrada”. La opción de alternar entre SQL, Python y PySpark ha aumentado considerablemente la productividad del equipo de datos de JetBlue.
Debido a la incapacidad de los pipelines para escalar rápidamente, la falta de un diseño escalable de código abierto en los almacenes de datos multinube resultó en análisis de causa raíz (RCA) complejos cuando los pipelines fallaban, pruebas y resolución de problemas ineficientes y, en última instancia, en un TCO más alto. El equipo de datos siguió de cerca los gastos de computación en el MCDW frente a Databricks durante la transición; a medida que se activaban más fuentes de datos en tiempo real y de gran volumen para su consumo, los costos de ETL/ELT aumentaron a un ritmo proporcionalmente más bajo y lineal en comparación con los costos de ETL/ELT del Multi Cloud Data Warehouse heredado.
La gobernanza de datos es el mayor obstáculo para implementar la IA generativa y el machine learning en cualquier organización. Debido a que el acceso basado en roles a los datos y la información cruciales se supervisa de cerca en negocios altamente regulados como la aviación, estos sectores se enorgullecen de sus procedimientos eficaces de gobernanza de datos. La necesidad de embeddings seleccionados, que solo son posibles en sistemas sofisticados con más de 100 mil millones de parámetros, como chatGPT de OpenAI, complica la gobernanza de datos de la organización. Se requiere una combinación de OpenAI para embeddings, Dolly 2.0 de Databricks para ingeniería rápida y el repositorio de documentos en línea y fuera de línea de JetBlue para una gobernanza eficaz de la IA generativa.
Con la plataforma de inteligencia de datos de Databricks como centro principal para todos los casos de uso de streaming, JetBlue entrega de manera eficiente varios productos e información de análisis y ML al procesar miles de atributos en tiempo real. Estos atributos incluyen datos de vuelos, clientes, tripulación de vuelo, tráfico aéreo y mantenimiento.
El lakehouse proporciona datos en tiempo real a través de Delta Live Tables, lo que permite el desarrollo de canalizaciones de ML para el entrenamiento histórico y la inferencia en tiempo real. Estos pipelines se implementan como API de servicio de ML que actualizan continuamente una instantánea de la red del sistema de JetBlue. Cualquier impacto operativo resultante de diversas variables controlables y no controlables, como condiciones meteorológicas que cambian rápidamente, eventos de mantenimiento de aeronaves con anomalías, tripulaciones de vuelo que se acercan a los límites legales de servicio o restricciones de ATC en las llegadas y salidas, se propaga por toda la red. Esto permite realizar ajustes preventivos basados en alertas pronosticadas.
Los flujos en tiempo real de datos meteorológicos, sensores de aeronaves, fuentes de datos de la FAA, operaciones de JetBlue y más, se utilizan para el primer sistema operativo de IA y ML del mundo que orquesta un gemelo digital, conocido como BlueSky, para lograr operaciones eficientes y seguras. JetBlue tiene más de 10 productos de ML (con múltiples modelos para cada producto) en producción en diversas verticales, como fijación dinámica de precios, motores de recomendación para clientes, optimización de la cadena de suministro, NLP para análisis del sentimiento del cliente y varios más.
El gemelo digital de operaciones BlueSky es uno de los productos más complejos que el equipo de datos está implementando actualmente en JetBlue y constituye la columna vertebral de las capacidades de previsión y simulación de las operaciones aéreas de la empresa.
BlueSky, que ahora se está implementando por fases, está generando eficiencias operativas en JetBlue a través de la toma de decisiones proactiva y óptima, lo que resulta en una mayor satisfacción del cliente y de la tripulación de vuelo, eficiencia de combustible y ahorro de costos para la aerolínea.
Además, el equipo colaboró con las API de Microsoft Azure OpenAI y Databricks Dolly para crear una solución robusta que cumple con la gobernanza de la IA generativa para acelerar el crecimiento exitoso de BlueSky y productos similares con una mínima gestión del cambio y una gestión eficiente de productos de ML.
El servicio de API de Microsoft Azure OpenAI ofrece capacidades de descarga de embeddings en un entorno de pruebas (sandbox) para almacenarlos en un almacén de documentos de base de datos vectorial. Dolly 2.0 de Databricks proporciona un mecanismo para una ingeniería rápida al permitir el acceso basado en roles de Unity Catalog a los documentos en el almacén de documentos de la base de datos vectorial. Con este framework, cualquier usuario de JetBlue puede acceder al mismo chatbot oculto detrás de los protocolos de SSO de Azure AD y las listas de control de acceso (ACL) de Unity Catalog de Databricks. Cada producto, incluido el gemelo digital en tiempo real BlueSky, incluye LLM integrados.
Al implementar productos empresariales de IA y ML en Databricks con datos del lakehouse, JetBlue ha logrado hasta ahora un múltiplo de retorno sobre la inversión (ROI) relativamente alto en un plazo de dos años. Además, Databricks permite a los equipos de ciencia de datos y análisis crear prototipos, iterar y lanzar rápidamente pipelines de datos, trabajos y modelos de ML usando el lakehouse, MLflow y Databricks SQL.
Nuestro equipo dedicado de JetBlue está entusiasmado con el futuro mientras nos esforzamos por implementar las características más innovadoras que ofrece Databricks. Al aprovechar estos avances, buscamos llevar la experiencia de nuestros clientes a otro nivel y mejorar continuamente el valor general que ofrecemos. Uno de nuestros objetivos principales es reducir nuestro costo total de propiedad (TCO), para garantizar que reciban retornos óptimos de sus inversiones.
Acompáñenos en el Data + AI Summit 2023, donde hablaremos del poder del lakehouse durante la Keynote, profundizaremos en nuestro fascinante recorrido del gemelo digital de IA y ML en tiempo real y brindaremos información sobre cómo sorteamos las complejidades de los modelos de lenguaje grandes.
Mira el video de nuestra historia aquí.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Notícias
23 de diciembre de 2024/8 min de lectura
Clientes
6 de noviembre de 2025/6 min de lectura