이 블로그는 Ben Dias, 데이터 과학 및 분석 디렉터와 Ioannis Mesionis, easyJet의 주요 데이터 과학자가 작성했습니다.
easyJet은 다른 항공사보다 유럽의 가장 인기 있는 노선에서 더 많이 운행하며 2022년에는 6900만 명 이상의 승객을 운송했습니다. 이 중 950만 명은 비즈니스 목적으로 여행했습니다. 이 항공사는 36개 국가의 150개 이상의 공항으로 거의 1000개의 노선에서 300대 이상의 항공기를 운영하고 있습니다. 3억 명 이상의 유럽인들이 easyJet 공항에서 한 시간 이내의 거리에 살고 있습니다.
많은 항공 산업의 회사들처럼, easyJet은 현재 고객 경험과 디지털화에 대한 도전과제에 직면하고 있습니다. 오늘날의 경쟁 환경에서 고객들은 빠르게 선호도를 바꾸고 있으며, 고객 서비스에 대한 기대치는 전례 없이 높아졌습니다. 적절한 데이터 및 AI 전략을 가지고 있으면 디지털 고객 서비스, 개인화 및 운영 과정 최적화와 관련된 많은 비즈니스 기회를 창출할 수 있습니다.
이 프로젝트를 시작할 때, easyJet은 이미 거의 1년 동안 Databricks의 고객이었습니다. 그 시점에서 우리는 데이터 엔지니어링 및 웨어하우징을 위해 Databricks를 완전히 활용하고 있었으며, 모든 데이터 과학 작업을 마이그레이션하고 분석 작업을 Databricks로 마이그레이션하기 시작했습니다. 우리는 또한 우리의 작업 부하를 새로운 Databricks 데이터 인텔리전스 플랫폼으로 마이그레이션하면서 우리의 이전 기술 스택을 적극적으로 폐기하고 있습니다.
Databricks에서 데이터 엔지니어링 작업 부하를 레이크하우스 아키텍처로 마이그레이션함으로써, 우리는 플랫폼의 합리화, 비용 절감, 복잡성 감소, 실시간 데이터 사용 사례 구현 능력 등의 이점을 누릴 수 있었습니다. 그러나, 우리의 이전 데이터 허브에서 운영되는 부동산의 상당 부분이 여전히 존재하는 사실은 새로운 데이터 과학 및 AI 사용 사례를 구상하고 생산화하는 것이 복잡하고 시간이 많이 소요되는 것을 의미했습니다.
데이터 레이크 기반의 아키텍처는 고객이 데이터를 수집, 처리, 저장할 수 있는 양에 대한 이점이 있습니다. 그러나, 거버넌스와 협업 능력의 부재는 회사들이 데이터 과학과 AI 실험을 실행하 고 빠르게 반복하는 능력에 영향을 미칩니다.
우리는 또한 생성 AI 애플리케이션의 부상을 보았는데, 이는 데이터 레이크 부동산에 대해 이야기할 때 구현 및 배포 측면에서 도전 과제를 제시합니다. 여기서는, 실험하고 구상하는 것이 다른 사일로 간의 데이터를 계속 복사하고 이동하는 것을 필요로 하며, 적절한 거버넌스와 계보가 없습니다. 배포 단계에서, 데이터 레이크 아키텍처를 가진 고객들은 보통 자신들이 여러 클라우드 공급업체 플랫폼을 계속 추가하거나, 자신들의 MLOps, 배포 및 서빙 솔루션을 개발해야 하는 상황을 보게 됩니다 - 이것은 DIY 접근법으로 알려져 있습니다.
두 시나리오 모두 다른 도전과제를 제시합니다. 회사의 아키텍처에 클라우드 벤더의 여러 제품을 추가함으로써, 고객들은 종종 높은 비용, 높은 오버헤드, 그리고 전문 인력의 증가된 필요성을 초래하는 높은 OPEX 비용을 부담하게 됩니다. DIY에 대해 말하자면, CAPEX와 OPEX 측면에서 모두 상당한 비용이 발생합니다. 먼저 자체 MLOps와 서빙 능력을 구축해야 하는데 - 이것 자체가 이미 꽤 어려울 수 있습니다 - 그리고 한번 구축하면, 플랫폼 진화 관점뿐만 아니라 운영, 인프라, 보안 관점에서 이러한 플랫폼을 계속 운영해야 합니다.
이러한 도전 과제들을 생성 AI와 대형 언어 모델(LLMs)의 영역으로 가져오면, 하드웨어 요구 사항을 고려할 때 그들의 영향력이 더욱 두드러지게 됩니다. 그래픽 처리 유닛 카드(GPUs)는 일반화된 CPU 하드웨어에 비해 훨씬 높은 비용을 가지고 있습니다. 따라서 이러한 자원을 데이터 아키텍처에 포함시키는 최적화된 방법을 생각하는 것이 매우 중요합니다. 이를 실패하면, 생성 AI와 LLMs의 모든 이점을 누리려는 회사들에게 거대한 비용 위험이 발생하며; 서버리스 기능을 가지고 있으면 이러한 위험을 크게 줄이면서, 이러한 특수 인프라를 유지하는 데 연관된 운영 오버헤드도 줄일 수 있습니다.
우리는 주로 레이크하우스 아키텍처가 저장소와 컴퓨트를 분리할 수 있게 해주었기 때문에 Databricks를 선택했습니다. Databricks 통합 플랫폼은 또한 easyJet의 다기능 팀이 단일 플랫폼에서 원활하게 협업할 수 있게 해주어 생산성을 향상시켰습니다.
Databricks와의 파트너십을 통해, 우리는 또한 가장 최근의 AI 혁신 - 레이크하우스 AI -에 접근할 수 있으며, 그들의 전문가 팀과 함께 우리의 아이디어를 빠르게 프로토타입화하고 실험할 수 있습니다. “우리의 LLM 여정에서 Databricks와 함께 일하는 것은 우리가 하나의 큰 팀이라는 느낌을 받았고, 그들이 단지 공급업체이고 우리가 고객이라는 느낌은 받지 않았습니다.”라고 easyJet의 데이터 과학 및 분석 디렉터인 Ben Dias가 말했습니다.
이 프로젝트의 목표는 비기술 사용자들이 자연어로 질문을 하고 우리의 풍부한 데이터셋에서 인사이트를 얻을 수 있는 도구를 제공하는 것이었습니다. 이 통찰력은 의사결정 과정에서 매우 가치있을 것입니다.
애플리케이션의 진입점은 웹 UI입니다. 웹 UI는 사용자가 마이크(예: 노트북의 내장 마이크)를 사용하여 자연어로 질문을 할 수 있게 합니다. 그 후, 음성은 트랜스크립션을 위해 오픈 소스 LLM(Whisper)으로 전송됩니다. 일단 전사되면, 질문과 Unity 카탈로그의 관련 테이블 메타데이터가 함께 모아져 프롬프트를 만들고, 그런 다음 다른 오픈 소스 LLM에게 텍스트를 SQL 변환을 위해 제출됩니다. text2sql 모델은 구문적으로 올바른 SQL 쿼리를 반환하며, 이 쿼리는 SQL 웨어하우스로 전송되고 답변이 반환되어 웹 UI에 표시됩니다.
text2sql 작업을 해결하기 위해, 우리는 여러 오픈 소스 LLMs와 실험했습니다. Databricks에서 사용할 수 있는 LLMOps 도구, 특히 Hugging Face와 MLflow의 다양한 LLM 플레이버와의 통합 덕분에, 우리는 LLMs와 함께 작업을 시작하는 데 낮은 진입 장벽을 발견했습니다. 우리는 이 작업에 대한 기본 모델을 더 나은 오픈 소스 모델이 출시됨에 따라 원활하게 교체할 수 있었습니다.
트랜스크립션과 text2sql 모델은 Nvidia의 A10G GPU를 지원하는 Databricks Model Serving을 사용하여 REST API 엔드포인트에서 제공됩니다. GPU 서빙을 활용하는 최초의 Databricks 고객 중 한 곳으로, 우리는 몇 번의 클릭으로 우리의 모델을 GPU에서 서빙할 수 있었으며, 개발에서 생산까지 몇 분 안에 갈 수 있었습니다. 서버리스인 Model Serving은 복잡한 인프라를 관리할 필요를 없애고 우리 팀이 비즈니스 문제에 집중하게 하며, 시장 진입 시간을 대폭 줄였습니다.
“레이크하우스 AI를 통해, 우리는 오픈 소스 생성 AI 모델을 우리의 환경에서 호스팅할 수 있었으며, 완전한 제어권을 가질 수 있었습니다. 또한, Databricks Model Serving은 이러한 LLMs의 배포와 추론을 자동화하여 복잡한 인프라를 다루는 필요성을 제거했습니다. 우리 팀은 솔루션을 구축하는 데 집중할 수 있었으며, 실제로 MVP에 도달하는 데 몇 주밖에 걸리지 않았습니다.”라고 easyJet의 주요 데이터 과학자인 Ioannis Mesionis가 말했습니다.
이 프로젝트는 우리의 GenAI 로드맵에서 첫 단계 중 하나이며, Databricks를 통해 우리는 몇 주 안에 MVP에 도달할 수 있었습니다. 우리는 아이디어를 가져와서 우리의 내부 고객들이 상호 작용할 수 있는 구체적인 것으로 변환할 수 있었습니다. 이 애플리케이션은 easyJet이 진정으로 데이터 중심의 비즈니스가 될 수 있도록 길을 닦습니다. 우리의 비즈니스 사용자들은 이제 우리의 데이터에 더 쉽게 접근할 수 있습니다. 그들은 자연어를 사용하여 데이터와 상호작용하고, LLM이 제공하는 인사이트에 기반한 결정을 내릴 수 있습니다.
이 계획은 easyJet이 최첨단 생성 AI 사용 사례의 이점을 쉽게 실험하고 정량화할 수 있게 했습니다. 이 솔루션은 easyJet의 IT, 데이터 & 변화 부서에서 300명 이상의 사람들에게 공개되었고, 이로 인한 흥분은 여행 추천을 위한 개인 비서, 운영 프로세스와 준수를 위한 챗봇, 그리고 자원 최적화와 같은 혁신적인 Gen AI 사용 사례에 대한 새로운 아이디어를 불러일으켰습니다.
솔루션을 제시한 후, easyJet의 이사회는 생성 AI를 그들의 로드맵에 포함시키는 것에 상당한 잠재력이 있다는 것에 빠르게 동의했습니다. 결과적으로, 이러한 사용 사례를 탐색하고 생명을 불어넣어 easyJet의 직원들과 고객들의 능력 을 향상시키고, 그들에게 더 나은, 더 데이터 중심의 사용자 경험을 제공하기 위해 예산의 특정 부분이 지정되었습니다.