Ir para o conteúdo principal

Acelerando a inovação na JetBlue usando o Databricks

jetblue x databricks

Publicado: 22 de junho de 2023

Clientes12 min de leitura

 

O papel dos dados no setor de aviação tem uma longa história. As companhias aéreas estavam entre os primeiros usuários de computadores mainframe e, hoje, seu uso de dados evoluiu para dar suporte a todas as partes do negócio. Graças, em grande parte, à qualidade e à quantidade de dados, as companhias aéreas estão entre os meios de transporte mais seguros do mundo.

As companhias aéreas de hoje devem equilibrar diversas variáveis que ocorrem em conjunto, em uma dança cronológica: 

  • Os passageiros precisam fazer conexão para seus voos
  • As bagagens precisam ser embarcadas nos voos e rastreadas para o mesmo destino que os clientes
  • Tripulações de voo (por exemplo, pilotos, comissários de bordo, tripulações em deslocamento) precisam estar a postos para seus voos, cumprindo os requisitos legais da FAA sobre jornada e descanso
  • As aeronaves são constantemente monitoradas para necessidades de manutenção, garantindo que o estoque de peças esteja disponível onde for necessário
  • O clima é dinâmico em centenas de locais e rotas críticas, e as previsões são vitais para operações de voo seguras e eficientes
  • As agências governamentais atualizam regularmente as restrições do espaço aéreo
  • As autoridades aeroportuárias atualizam regularmente a infraestrutura do aeroporto
  • As agências governamentais atualizam regularmente as restrições de slots aeroportuários e se ajustam às tensões geopolíticas.
  • As forças macroeconômicas afetam constantemente o preço do combustível de aviação Jet-A e dos Combustíveis Sustentáveis de Aviação (SAF).
  • Situações durante o voo, por diversos motivos, levam a ajustes ativos no sistema da companhia aérea.

O papel dos dados e, em particular, de analítica, AI e ML é key para que as companhias aéreas ofereçam uma experiência integrada aos clientes, mantendo operações eficientes para otimizar os objetivos de negócios.

As companhias aéreas são um dos data-driven indústrias do mundo atualmente, devido à frequência, ao volume e à variedade de mudanças que ocorrem, já que os clientes dependem desse componente vital da nossa infraestrutura de transporte.

Para um único voo, por exemplo, de Nova York a Londres, centenas de decisões precisam ser tomadas com base em fatores que abrangem clientes, tripulações, sensores da aeronave, clima em tempo real e dados de controle de tráfego aéreo (ATC) em tempo real. Uma grande interrupção, como uma forte tempestade de inverno, pode afetar milhares de voos nos EUA. Portanto, é vital que as companhias aéreas dependam de dados tempo-real e de IA & ML para tomar decisões proativas tempo real.

As aeronaves geram terabytes de dados de sensores de IoT ao longo de um dia, e as interações dos clientes com os canais de reserva ou autoatendimento, as constantes mudanças operacionais decorrentes das condições climáticas dinâmicas e as restrições de tráfego aéreo são apenas alguns dos itens que destacam a complexidade, o volume, a variedade e a velocidade dos dados em uma companhia aérea como a JetBlue.
 

Cidades-foco
JetBlue Airway’s Routes

Com seis cidades foco (Boston, Fort Lauderdale, Los Angeles, Nova York, Orlando, San Juan) e uma grande concentração de voos no corredor aéreo mais movimentado do mundo, em Nova York, a JetBlue em 2023 tem:

Métricas

O estado dos dados e da IA na JetBlue

Devido à importância estratégica dos dados na JetBlue, a equipe de dados é composta pelas equipes de Integração de Dados, Engenharia de Dados, Ciência de Dados Comerciais, Ciência de Dados de Operações, engenharia de IA & ML e Business Intelligence, que se reportam diretamente ao CTO.

O stack tecnológico atual da JetBlue está centrado principalmente no Azure, com uma arquitetura de Multi-cloud data warehouse e lakehouse executando simultaneamente para diversas finalidades. Tanto os dados internos quanto os externos são continuamente enriquecidos na Plataforma de Inteligência de Dados da Databricks na forma de feeds em lotes, quase em tempo real e em tempo real.

O uso de Delta Live Tables para extração, carregamento e transformação de dados permite que Engenheiros de Dados e Cientistas de Dados atendam a uma ampla gama de requisitos de SLA de latência, alimentando aplicações downstream, pipelines de IA e ML, dashboards de BI e as necessidades dos analistas.

A JetBlue usa a biblioteca BlueML desenvolvida internamente com recursos de AutoML, AutoDeploy e Feature Store online, bem como MLflow, APIs de registro de modelo e dependências personalizadas para treinamento e inferência de modelos de AI e ML.

Arquitetura Jet Blue
JetBlue’s Data, Analytics and Machine Learning Architecture

Os entendimentos são consumidos usando APIs REST que conectam painéis do Tableau ao  Databricks SQL serverless compute, uma camada semântica de serviço rápido e/ou APIs de serviço de ML implantados.  

A implantação de novos produtos de ML geralmente é acompanhada por processos robustos de gerenciamento de mudanças, particularmente em linhas de negócio rigorosamente regulamentadas pelos Regulamentos Federais de Aviação e outras leis, devido à sensibilidade dos dados e à respectiva tomada de decisão. Tradicionalmente, esse gerenciamento de mudanças tem envolvido uma série de workshops, treinamentos, feedback de produtos e maneiras mais especializadas para os usuários interagirem com o produto, como KPIs e dashboards específicos para cada função.

À luz dos avanços recentes em IA Generativa, o gerenciamento de mudanças tradicional e o gerenciamento de produtos de ML foram transformados. Agora, os usuários podem usar a sofisticada tecnología de Grandes Modelos de Linguagem (LLM) para acessar KPIs e informações específicas da função, incluindo ajuda usando a linguagem natural com a qual estão familiarizados. Isso reduz drasticamente o treinamento necessário para o escalonamento bem-sucedido do produto entre os usuários, o tempo de resposta para o feedback do produto e, o mais importante, simplifica o acesso a resumos de percepções relevantes; o acesso à informação não é mais medido em cliques, mas no número de palavras da pergunta.

Para atender às necessidades de IA generativa e ML, a equipe de engenharia de IA e ML da JetBlue concentrou-se em abordar os desafios corporativos.

Linhas de negócio Produto(s) Estratégico(s)Resultado(s) Estratégico(s)
Ciência de Dados Comercial
  • Preços dinâmicos de tarifas
  • Recomendação de produtos para clientes
  • Funil de vendas multicanal de upsell/cross-sell/recaptura
  • Previsão de receita e demanda
  • Aumentar fontes de receita novas e existentes
  • Melhorar a experiência do cliente com personalização, otimização do tempo de embarque & priorização da abordagem de resolução para o cliente.
Ciência de Dados de Operações
  • Gêmeo digital de operações aéreas (BlueSky)
  • Previsão de ETA e ETD
  • Ferramentas Comuns de Consciência Situacional
  • Otimização de peças e estoque
  • Previsão de eficiência de combustível
  • Otimização de rede
  • Melhorar a eficiência operacional por meio da redução do tempo de espera nos portões, da combinação eficiente de tripulações, da redução de atrasos de voos e da redução de emissões de CO2 com o uso otimizado de combustível.
Engenharia de IA & ML
  • LLM de descobrimento de dados (Radar)
  • LLM de interação com o produto
  • AutoML+AutoDeploy (BlueML)
  • Feature Store
  • Automação de CI/CD  
  • Acelere a estratégia interna de go-to-market do produto, reduzindo o tempo para o MVP, iteração e lançamento
  • P&D de novas abordagens de IA e ML na JetBlue
Business Intelligence
  • Painéis em tempo real
  • Suporte corporativo de analítica
  • Capacitação/requalificação corporativa
  • Relate KPIs em tempo real para executivos para uma tomada de decisão mais rápida
  • Aumentar o acesso e a conscientização dos analistas sobre os dados armazenados no lakehouse e nos Feature Stores – aprimorar/requalificar as habilidades dos analistas.

Usando esta arquitetura, a JetBlue acelerou as implantações de IA e ML em uma ampla gama de casos de uso, abrangendo quatro linhas de negócios, cada uma com sua própria equipe de IA e ML. A seguir estão as funções fundamentais das linhas de negócio:

  • Ciência de Dados Comercial (CDS) - Crescimento de receita
  • Ciência de Dados de Operações (ODS) - Redução de custos
  • Engenharia de IA & ML – Otimização do lançamento de produtos no mercado
  • Business Intelligence – Escalonamento e suporte corporativo para relatórios

Cada linha de negócios suporta múltiplos produtos estratégicos que são priorizados regularmente pela liderança da JetBlue para estabelecer KPIs que levam a resultados estratégicos eficazes.

Por que migrar de uma arquitetura de Multi-Cloud cloud data warehouse

Webinar

Databricks: Uma Introdução Prática

A tecnologia de dados e IA é crucial para tomar decisões proativas em tempo real; no entanto, o uso de plataformas de arquitetura de dados legadas impacta os resultados de negócios.

Os dados da JetBlue são servidos principalmente por meio do cloud data warehouse, resultando em falta de flexibilidade para designs complicados, alterações de latência e escalabilidade de custos. 


Latência
Alta latência: uma latência de 10 minutos na arquitetura de dados custa à organização milhões de dólares por ano.

Arquitetura complexa
Arquitetura complexa – vários estágios de movimentação de dados em múltiplas plataformas e produtos é ineficiente para casos de uso de transmissão em tempo real, pois é complexo e de custo proibitivo.

Alto TCO da plataforma
TCO de plataforma elevado – ter inúmeras plataformas de dados de fornecedores e recursos para gerenciar a plataforma de dados acarreta altos custos operacionais.

Escalonamento
Ampliando a escala – a arquitetura de dados atual tem problemas de escalonamento ao processar exabytes (grandes quantidades de dados) gerados por muitos voos.  

Devido à falta de hidratação do feature store online, a alta latência na arquitetura tradicional impedia que nossos cientistas de dados construíssem pipelines escaláveis de treinamento e inferência de ML. Quando os cientistas de dados e engenheiros de IA e ML no lakehouse receberam a liberdade de unir modelos de ML mais perto da arquitetura medallion, a eficiência da estratégia de go-to-market foi desbloqueada.

"Arquiteturas complexas, como gerenciamento de esquemas dinâmicos e transformações com e sem estado, são difíceis de implementar com arquiteturas tradicionais de data warehouse multicloud. Agora, tanto data scientists quanto engenheiros de dados podem realizar essas mudanças usando Delta Live Tables escaláveis sem barreiras de entrada." A opção de alternar entre SQL, Python e PySpark aumentou significativamente a produtividade da equipe de dados da JetBlue.

Devido à incapacidade dos pipelines de escalar rapidamente, a falta de um design escalável de código aberto em data warehouses multicloud resultou em Análises de Causa Raiz (RCAs) complexas quando os pipelines falhavam, testes/solução de problemas ineficientes e, em última análise, um TCO mais alto. A equipe de dados acompanhou de perto as despesas de compute no MCDW em comparação com o Databricks durante a transição; à medida que mais feeds de dados em tempo real e de alto volume eram ativados para consumo, os custos de ETL/ELT aumentavam a uma taxa proporcionalmente menor e linear em comparação com os custos de ETL/ELT do Multi cloud data warehouse legado.

A governança de dados é o maior obstáculo para a implantação de IA generativa e machine learning em qualquer organização. Como o acesso baseado em função a dados e percepções cruciais é rigorosamente monitorado em setores altamente regulamentados, como a aviação, esses setores se orgulham de procedimentos eficazes de governança de dados. A necessidade de embeddings com curadoria, que só são possíveis em sistemas sofisticados com 100 bilhões ou mais de parâmetros, como o chatGPT da OpenAI, complica a governança de dados da organização. Uma combinação de OpenAI para embeddings, Dolly 2.0 da Databricks para engenharia rápida e o repositório de documentos offline/online da JetBlue é necessária para uma governança de IA Generativa eficaz.

Arquitetura Anterior de cloud data warehouse Multi-Cloud

cloud data warehouse anterior
Previous Data Architecture with MCDW as central data store

Impacto da Arquitetura Lakehouse 

Com a Databricks Data Intelligence Platform servindo como hub central para todos os casos de uso de transmissão, a JetBlue entrega com eficiência vários produtos e entendimentos de ML e analítica, processando milhares de atributos em tempo real. Esses atributos incluem dados de voos, clientes, tripulação, tráfego aéreo e manutenção.

O lakehouse fornece dados tempo-real por meio do Delta Live Tables, permitindo o desenvolvimento de ML pipelines para treinamento histórico e inferência tempo real. Esses pipelines são implantados como APIs de serviço de ML que atualizam continuamente um snapshot da rede do sistema da JetBlue. Qualquer impacto operacional resultante de diversas variáveis controláveis e incontroláveis, como mudanças climáticas rápidas, eventos de manutenção de aeronaves com anomalias, tripulações de voo próximas dos limites legais de serviço ou restrições de ATC em chegadas/partidas, é propagado pela rede. Isso permite ajustes preventivos com base em alertas previstos.

Arquitetura de Lakehouse Atual

Arquitetura de dados atual
Current Data Architecture built around the lakehouse for data, analytics and AI 

Transmissões em tempo real de dados meteorológicos, sensores de aeronaves, feeds de dados da FAA, operações da JetBlue e muito mais são usados no primeiro sistema operacional de IA e ML do mundo que orquestra um gêmeo digital, conhecido como BlueSky, para operações eficientes e seguras. A JetBlue tem mais de 10 produtos de ML (vários modelos para cada produto) em produção em diversos setores verticais, incluindo preços dinâmicos, mecanismos de recomendação para clientes, otimização da cadeia de suprimentos, NLP para análise de sentimento do cliente e muito mais.

O gêmeo digital de operações BlueSky é um dos produtos mais complexos atualmente sendo implementado na JetBlue pela equipe de dados e forma a espinha dorsal das capacidades de previsão e simulação das operações aéreas da JetBlue.

Sistema Operacional BlueSky AI da JetBlue
JetBlue’s BlueSky AI Operating System 

O BlueSky, que agora está sendo implementado gradualmente, está liberando eficiências operacionais na JetBlue por meio de tomadas de decisão proativas e otimizadas, resultando em maior satisfação do cliente, satisfação da tripulação, eficiência de combustível e economia de custos para a companhia aérea.

Além disso, a equipe colaborou com as APIs do Microsoft Azure OpenAI e com o Databricks Dolly para criar uma solução robusta que atende à governança de IA Generativa para acelerar o crescimento bem-sucedido do BlueSky e de produtos similares com o mínimo de gerenciamento de mudanças e gerenciamento eficiente de produtos de ML.  

 

Arquitetura do Sistema de AI Generativa da JetBlue
JetBlue’s Generative AI system architecture

O serviço da API OpenAI do Microsoft Azure oferece recursos de download de embeddings em sandbox para armazenamento em um repositório de documentos de banco de dados vetorial. O Dolly 2.0 da Databricks fornece um mecanismo para engenharia rápida, permitindo acesso baseado em função via Unity Catalog a documentos no repositório de documentos de banco de dados vetorial. Usando este framework, qualquer usuário da JetBlue pode acessar o mesmo chatbot protegido por protocolos de SSO do Azure AD e Listas de Controle de Acesso (ACLs) do Unity Catalog da Databricks. Cada produto, incluindo o gêmeo digital em tempo real BlueSky, é entregue com LLMs incorporados.
 

Chatbot da JetBlue baseado nas APIs OpenAI do Microsoft Azure e no Databricks Dolly
JetBlue’s Chatbot based on  Microsoft Azure OpenAI APIs and Databricks Dolly

Ao implantar produtos empresariais de AI e ML no Databricks usando dados no lakehouse, a JetBlue alcançou um múltiplo de Retorno sobre o Investimento (ROI) relativamente alto em dois anos. Além disso, o Databricks permite que as equipes de Ciência de Dados e analítica criem protótipos, iterem e lancem rapidamente pipelines de dados, Jobs e modelos de ML usando o lakehouse, o MLflow e o Databricks SQL.

Nossa equipe dedicada na JetBlue está entusiasmada com o futuro enquanto nos esforçamos para implementar os recursos mais recentes e inovadores oferecidos pela Databricks. Ao aproveitar esses avanços, pretendemos elevar a experiência de nossos clientes a novos patamares e melhorar continuamente o valor geral que oferecemos. Um dos nossos principais objetivos é reduzir nosso custo total de propriedade (TCO), garantindo que eles recebam retornos ideais sobre seus investimentos.

Junte-se a nós no Data + AI Summit 2023, onde discutiremos o poder do lakehouse durante a Keynote, faremos um mergulho profundo em nossa fascinante Jornada do Gêmeo digital de IA e ML em tempo real e forneceremos entendimentos sobre como navegamos pelas complexidades dos Modelos de Linguagem Grandes

 

Assista ao vídeo da nossa história aqui

 

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?

Databricks Named a Leader in 2024 Gartner® Magic Quadrant™ for Cloud Database Management Systems

Notícias

23 de dezembro de 2024/8 min de leitura

Databricks nomeada líder no Quadrante Mágico da Gartner® de 2024 para sistemas de gerenciamento de banco de dados em nuvem

How HP Industrial Print Transformed Its Data Platform with Databricks SQL

Clientes

6 de novembro de 2025/6 min de leitura

Como a HP Industrial Print Transformou sua Plataforma de Dados com o Databricks SQL