Este blog é de autoria de Sai Ravuru, Gerente Sênior de ciência de dados e analítica da JetBlue
O papel dos dados no setor de aviação tem uma longa história. As companhias aéreas estavam entre os primeiros usuários de computadores mainframe e, hoje, seu uso de dados evoluiu para dar suporte a todas as partes do negócio. Graças, em grande parte, à qualidade e à quantidade de dados, as companhias aéreas estão entre os meios de transporte mais seguros do mundo.
As companhias aéreas de hoje devem equilibrar diversas variáveis que ocorrem em conjunto, em uma dança cronológica:
O papel dos dados e, em particular, de analítica, AI e ML é key para que as companhias aéreas ofereçam uma experiência integrada aos clientes, mantendo operações eficientes para otimizar os objetivos de negócios.
As companhias aéreas são um dos data-driven indústrias do mundo atualmente, devido à frequência, ao volume e à variedade de mudanças que ocorrem, já que os clientes dependem desse componente vital da nossa infraestrutura de transporte.
Para um único voo, por exemplo, de Nova York a Londres, centenas de decisões precisam ser tomadas com base em fatores que abrangem clientes, tripulações, sensores da aeronave, clima em tempo real e dados de controle de tráfego aéreo (ATC) em tempo real. Uma grande interrupção, como uma forte tempestade de inverno, pode afetar milhares de voos nos EUA. Portanto, é vital que as companhias aéreas dependam de dados tempo-real e de IA & ML para tomar decisões proativas tempo real.
As aeronaves geram terabytes de dados de sensores de IoT ao longo de um dia, e as interações dos clientes com os canais de reserva ou autoatendimento, as constantes mudanças operacionais decorrentes das condições climáticas dinâmicas e as restrições de tráfego aéreo são apenas alguns dos itens que destacam a complexidade, o volume, a variedade e a velocidade dos dados em uma companhia aérea como a JetBlue.
Com seis cidades foco (Boston, Fort Lauderdale, Los Angeles, Nova York, Orlando, San Juan) e uma grande concentração de voos no corredor aéreo mais movimentado do mundo, em Nova York, a JetBlue em 2023 tem:

Devido à importância estratégica dos dados na JetBlue, a equipe de dados é composta pelas equipes de Integração de Dados, Engenharia de Dados, Ciência de Dados Comerciais, Ciência de Dados de Operações, engenharia de IA & ML e Business Intelligence, que se reportam diretamente ao CTO.
O stack tecnológico atual da JetBlue está centrado principalmente no Azure, com uma arquitetura de Multi-cloud data warehouse e lakehouse executando simultaneamente para diversas finalidades. Tanto os dados internos quanto os externos são continuamente enriquecidos na Plataforma de Inteligência de Dados da Databricks na forma de feeds em lotes, quase em tempo real e em tempo real.
O uso de Delta Live Tables para extração, carregamento e transformação de dados permite que Engenheiros de Dados e Cientistas de Dados atendam a uma ampla gama de requisitos de SLA de latência, alimentando aplicações downstream, pipelines de IA e ML, dashboards de BI e as necessidades dos analistas.
A JetBlue usa a biblioteca BlueML desenvolvida internamente com recursos de AutoML, AutoDeploy e Feature Store online, bem como MLflow, APIs de registro de modelo e dependências personalizadas para treinamento e inferência de modelos de AI e ML.
Os entendimentos são consumidos usando APIs REST que conectam painéis do Tableau ao Databricks SQL serverless compute, uma camada semântica de serviço rápido e/ou APIs de serviço de ML implantados.
A implantação de novos produtos de ML geralmente é acompanhada por processos robustos de gerenciamento de mudanças, particularmente em linhas de negócio rigorosamente regulamentadas pelos Regulamentos Federais de Aviação e outras leis, devido à sensibilidade dos dados e à respectiva tomada de decisão. Tradicionalmente, esse gerenciamento de mudanças tem envolvido uma série de workshops, treinamentos, feedback de produtos e maneiras mais especializadas para os usuários interagirem com o produto, como KPIs e dashboards específicos para cada função.
À luz dos avanços recentes em IA Generativa, o gerenciamento de mudanças tradicional e o gerenciamento de produtos de ML foram transformados. Agora, os usuários podem usar a sofisticada tecnología de Grandes Modelos de Linguagem (LLM) para acessar KPIs e informações específicas da função, incluindo ajuda usando a linguagem natural com a qual estão familiarizados. Isso reduz drasticamente o treinamento necessário para o escalonamento bem-sucedido do produto entre os usuários, o tempo de resposta para o feedback do produto e, o mais importante, simplifica o acesso a resumos de percepções relevantes; o acesso à informação não é mais medido em cliques, mas no número de palavras da pergunta.
Para atender às necessidades de IA generativa e ML, a equipe de engenharia de IA e ML da JetBlue concentrou-se em abordar os desafios corporativos.
| Linhas de negócio | Produto(s) Estratégico(s) | Resultado(s) Estratégico(s) |
| Ciência de Dados Comercial |
|
|
| Ciência de Dados de Operações |
|
|
| Engenharia de IA & ML |
|
|
| Business Intelligence |
|
|
Usando esta arquitetura, a JetBlue acelerou as implantações de IA e ML em uma ampla gama de casos de uso, abrangendo quatro linhas de negócios, cada uma com sua própria equipe de IA e ML. A seguir estão as funções fundamentais das linhas de negócio:
Cada linha de negócios suporta múltiplos produtos estratégicos que são priorizados regularmente pela liderança da JetBlue para estabelecer KPIs que levam a resultados estratégicos eficazes.
A tecnologia de dados e IA é crucial para tomar decisões proativas em tempo real; no entanto, o uso de plataformas de arquitetura de dados legadas impacta os resultados de negócios.
Os dados da JetBlue são servidos principalmente por meio do cloud data warehouse, resultando em falta de flexibilidade para designs complicados, alterações de latência e escalabilidade de custos.
![]() | Alta latência: uma latência de 10 minutos na arquitetura de dados custa à organização milhões de dólares por ano. |
![]() | Arquitetura complexa – vários estágios de movimentação de dados em múltiplas plataformas e produtos é ineficiente para casos de uso de transmissão em tempo real, pois é complexo e de custo proibitivo. |
![]() | TCO de plataforma elevado – ter inúmeras plataformas de dados de fornecedores e recursos para gerenciar a plataforma de dados acarreta altos custos operacionais. |
![]() | Ampliando a escala – a arquitetura de dados atual tem problemas de escalonamento ao processar exabytes (grandes quantidades de dados) gerados por muitos voos. |
Devido à falta de hidratação do feature store online, a alta latência na arquitetura tradicional impedia que nossos cientistas de dados construíssem pipelines escaláveis de treinamento e inferência de ML. Quando os cientistas de dados e engenheiros de IA e ML no lakehouse receberam a liberdade de unir modelos de ML mais perto da arquitetura medallion, a eficiência da estratégia de go-to-market foi desbloqueada.
"Arquiteturas complexas, como gerenciamento de esquemas dinâmicos e transformações com e sem estado, são difíceis de implementar com arquiteturas tradicionais de data warehouse multicloud. Agora, tanto data scientists quanto engenheiros de dados podem realizar essas mudanças usando Delta Live Tables escaláveis sem barreiras de entrada." A opção de alternar entre SQL, Python e PySpark aumentou significativamente a produtividade da equipe de dados da JetBlue.
Devido à incapacidade dos pipelines de escalar rapidamente, a falta de um design escalável de código aberto em data warehouses multicloud resultou em Análises de Causa Raiz (RCAs) complexas quando os pipelines falhavam, testes/solução de problemas ineficientes e, em última análise, um TCO mais alto. A equipe de dados acompanhou de perto as despesas de compute no MCDW em comparação com o Databricks durante a transição; à medida que mais feeds de dados em tempo real e de alto volume eram ativados para consumo, os custos de ETL/ELT aumentavam a uma taxa proporcionalmente menor e linear em comparação com os custos de ETL/ELT do Multi cloud data warehouse legado.
A governança de dados é o maior obstáculo para a implantação de IA generativa e machine learning em qualquer organização. Como o acesso baseado em função a dados e percepções cruciais é rigorosamente monitorado em setores altamente regulamentados, como a aviação, esses setores se orgulham de procedimentos eficazes de governança de dados. A necessidade de embeddings com curadoria, que só são possíveis em sistemas sofisticados com 100 bilhões ou mais de parâmetros, como o chatGPT da OpenAI, complica a governança de dados da organização. Uma combinação de OpenAI para embeddings, Dolly 2.0 da Databricks para engenharia rápida e o repositório de documentos offline/online da JetBlue é necessária para uma governança de IA Generativa eficaz.
Com a Databricks Data Intelligence Platform servindo como hub central para todos os casos de uso de transmissão, a JetBlue entrega com eficiência vários produtos e entendimentos de ML e analítica, processando milhares de atributos em tempo real. Esses atributos incluem dados de voos, clientes, tripulação, tráfego aéreo e manutenção.
O lakehouse fornece dados tempo-real por meio do Delta Live Tables, permitindo o desenvolvimento de ML pipelines para treinamento histórico e inferência tempo real. Esses pipelines são implantados como APIs de serviço de ML que atualizam continuamente um snapshot da rede do sistema da JetBlue. Qualquer impacto operacional resultante de diversas variáveis controláveis e incontroláveis, como mudanças climáticas rápidas, eventos de manutenção de aeronaves com anomalias, tripulações de voo próximas dos limites legais de serviço ou restrições de ATC em chegadas/partidas, é propagado pela rede. Isso permite ajustes preventivos com base em alertas previstos.
Transmissões em tempo real de dados meteorológicos, sensores de aeronaves, feeds de dados da FAA, operações da JetBlue e muito mais são usados no primeiro sistema operacional de IA e ML do mundo que orquestra um gêmeo digital, conhecido como BlueSky, para operações eficientes e seguras. A JetBlue tem mais de 10 produtos de ML (vários modelos para cada produto) em produção em diversos setores verticais, incluindo preços dinâmicos, mecanismos de recomendação para clientes, otimização da cadeia de suprimentos, NLP para análise de sentimento do cliente e muito mais.
O gêmeo digital de operações BlueSky é um dos produtos mais complexos atualmente sendo implementado na JetBlue pela equipe de dados e forma a espinha dorsal das capacidades de previsão e simulação das operações aéreas da JetBlue.
O BlueSky, que agora está sendo implementado gradualmente, está liberando eficiências operacionais na JetBlue por meio de tomadas de decisão proativas e otimizadas, resultando em maior satisfação do cliente, satisfação da tripulação, eficiência de combustível e economia de custos para a companhia aérea.
Além disso, a equipe colaborou com as APIs do Microsoft Azure OpenAI e com o Databricks Dolly para criar uma solução robusta que atende à governança de IA Generativa para acelerar o crescimento bem-sucedido do BlueSky e de produtos similares com o mínimo de gerenciamento de mudanças e gerenciamento eficiente de produtos de ML.
O serviço da API OpenAI do Microsoft Azure oferece recursos de download de embeddings em sandbox para armazenamento em um repositório de documentos de banco de dados vetorial. O Dolly 2.0 da Databricks fornece um mecanismo para engenharia rápida, permitindo acesso baseado em função via Unity Catalog a documentos no repositório de documentos de banco de dados vetorial. Usando este framework, qualquer usuário da JetBlue pode acessar o mesmo chatbot protegido por protocolos de SSO do Azure AD e Listas de Controle de Acesso (ACLs) do Unity Catalog da Databricks. Cada produto, incluindo o gêmeo digital em tempo real BlueSky, é entregue com LLMs incorporados.
Ao implantar produtos empresariais de AI e ML no Databricks usando dados no lakehouse, a JetBlue alcançou um múltiplo de Retorno sobre o Investimento (ROI) relativamente alto em dois anos. Além disso, o Databricks permite que as equipes de Ciência de Dados e analítica criem protótipos, iterem e lancem rapidamente pipelines de dados, Jobs e modelos de ML usando o lakehouse, o MLflow e o Databricks SQL.
Nossa equipe dedicada na JetBlue está entusiasmada com o futuro enquanto nos esforçamos para implementar os recursos mais recentes e inovadores oferecidos pela Databricks. Ao aproveitar esses avanços, pretendemos elevar a experiência de nossos clientes a novos patamares e melhorar continuamente o valor geral que oferecemos. Um dos nossos principais objetivos é reduzir nosso custo total de propriedade (TCO), garantindo que eles recebam retornos ideais sobre seus investimentos.
Junte-se a nós no Data + AI Summit 2023, onde discutiremos o poder do lakehouse durante a Keynote, faremos um mergulho profundo em nossa fascinante Jornada do Gêmeo digital de IA e ML em tempo real e forneceremos entendimentos sobre como navegamos pelas complexidades dos Modelos de Linguagem Grandes.
Assista ao vídeo da nossa história aqui.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Notícias
23 de dezembro de 2024/8 min de leitura
Clientes
6 de novembro de 2025/6 min de leitura