HP Industrial Print는 사일로화되고 경직된 아키텍처에서 Databricks Data Intelligence Platform으로 이전하여 데이터 플랫폼을 현대화했으며, 이를 통해 더 빠른 온보딩, 향상된 거버넌스 및 앱 상호작용으로 데이터를 생성한 고객과의 원활한 Data Sharing이 가능해졌습니다. 이러한 변환을 통해 파이프라인 성능이 40% 향상되었으며, 확장 가능한 데이터 제품과 수익화를 통해 새로운 수익 기회를 창출했습니다.
HP의 산업용 인쇄 소프트웨어 솔루션(IPSS) 사업부는 항상 최첨단 하드웨어와 소프트웨어의 접점에 있었습니다. 이들의 포트폴리오는 정교한 소프트웨어 및 분석 제품을 제공하며 디지털 인쇄 워크플로, 모니터링 및 분석 기능을 제공합니다. 하지만 고속의 유연하고 자동화된 인쇄에 대한 수요가 증가함에 따라 더욱 지능적이고 확장 가능한 데이터 플랫폼에 대한 필요성도 커졌습니다. HP의 레거시 데이터 인프라는 견고했지만, 신속하게 움직이고 폭넓게 협업하며 데이터를 완전히 활용하는 데는 한계가 있었습니다. 이것이 바로 HP가 Databricks를 선택한 이유입니다.
이러한 변환의 중요성을 이해하려면 HP Industrial Print 내에서 데이터가 어떻게 흐르는지 살펴볼 필요가 있습니다. 고객이 맞춤형 패키징부터 와이드 포맷 그래픽에 이르기까지 모든 인쇄 주문을 하면, HP는 자체 독점 애플리케이션인 PrintOS Site Flow를 통해 이러한 요청을 전달합니다. 이 시스템은 고객을 HP의 글로벌 인쇄 서비스 제공업체(PSP) 네트워크 중 한 곳과 연결해 주며, 이들이 주문을 처리합니다. job이 온보딩에서 인쇄, 포장, 배송으로 진행됨에 따라 PSP는 바코드를 스캔하고 상태를 업데이트하여 풍부한 운영 데이터 stream을 생성합니다. 이 데이터에는 주문, 공급업체 할당, 자재 사양, 타임스탬프가 포함됩니다.
HP는 이러한 기반을 바탕으로 비즈니스 의사 결정을 내리는 데 필요한 인사이트를 추출합니다. 대시보드는 PSP가 작업량과 성능을 관리하는 데 도움이 됩니다. 내부 분석팀은 이 데이터를 사용하여 고객 참여를 모니터링하고 공급망을 최적화하며 청구 정확성을 보장합니다. 또한 HP는 PSP가 자체적으로 포괄적인 분석을 실행할 수 있도록 이 데이터를 공개하여 파트너를 지원합니다.
간단히 말해, 데이터는 HP 산업용 인쇄의 운영 중추이자 전략적 자산입니다. 하지만 이를 뒷받침하는 시스템은 속도를 따라가지 못했습니다.
이전 구성에서는 데이터가 MongoDB에서 Amazon EKS에서 실행되는 Kubernetes 기반 파이프라인을 통해 흘러갔습니다. 변환된 데이터세트는 내부 분석을 위해 Amazon Redshift에, 외부 애플리케이션 서비스를 위해 Amazon RDS에 저장되었습니다. 기능적으로는 문제가 없었지만 이 아키텍처에는 몇 가지 단점이 있었습니다.
HP 사업부 간의 데이터 공유는 복잡하고 시간이 많이 걸렸으며, 종종 맞춤형 파이프라인이나 수동 데이터 내보내기가 필요했습니다. 메달리온 아키텍처가 없었기 때문에 로직이나 비즈니스 규칙이 변경될 때 데이터 리니지를 추적하거나 과거 데이터를 재처리하기가 어려웠습니다. 거버넌스가 사일로 방식으로 처리되어 액세스 정책에 일관성이 없었습니다.
무엇보다도 이 아키텍처는 혁신을 저해했습니다. HP는 내부 및 외부 데이터를 결합하여 더 깊은 인사이트를 제공하거나 수익을 창출하는 새로운 데이터 제품(서비스)에 대한 아이디어를 가지고 있었지만, 이를 구현하기 위한 민첩성과 가시성이 부족했습니다.
Databricks 데이터 인텔리전스 플랫폼을 기반으로 구축된 HP의 새로운 아키텍처는 상황을 완전히 바꿔 놓았습니다. 데이터는 계속해서 MongoDB에서 수집되지만, 이제는 Amazon S3의 브론즈 레이어에 저장됩니다. 거기서부터 Databricks Job은 성능과 확장성에 최적화된 환경에서 품질 검사와 비즈니스 로직을 적용하며 실버 및 골드 레이어를 통해 데이터를 변환합니다.
HP는 Unity Catalog를 통해 비즈니스 목적과 준비 상태에 따라 데이터를 구성하고, 완전한 계보와 감사 기능을 유지하면서 세분화된 액세스 제어를 구현할 수 있게 되었습니다. 팀은 데이터가 어디에 있는지뿐만 아니라 어떤 변환이 적용되었고, 누가 액세스했으며, 어떤 제품이 해당 데이터에 의존하는지 등 데이터의 흐름을 파악할 수 있습니다.
