FinOps 및 플랫폼 팀이 실제로 사용하고 싶어 하는 통합 비용 대시보드를 자동화하는 방법을 배워보세요.
작성자: Steven Muschler, 다니엘 마르티네즈 아레발로 , 사다나 발라
AI 및 데이터 투자의 가치를 이해하는 것은 매우 중요하지만, 52% 이상의 기업이 투자 수익(ROI)을 엄격하게 측정하지 못하고 있습니다[Futurum]. 완전한 ROI 가시성을 확보하려면 플랫폼 사용량과 클라우드 인프라를 연결하여 명확한 재무 그림을 만들어야 합니다. 오늘날의 데이터 플랫폼은 점점 더 광범위해지는 스토리지 및 compute 아키텍처를 지원해야 하므로 데이터는 사용 가능하지만 단편화되어 있는 경우가 많습니다.
Databricks에서 고객은 멀티클라우드, 멀티 워크로드, 멀티팀 환경을 관리하고 있습니다. 이러한 환경에서는 정보에 입각한 의사 결정을 내리기 위해 비용에 대한 일관되고 포괄적인 시각을 갖는 것이 필수적입니다.
Databricks와 같은 플랫폼에서 비용 가시성의 핵심은 총소유비용(TCO)이라는 개념입니다.
Databricks와 같은 멀티클라우드 데이터 플랫폼에서 TCO는 두 가지 핵심 구성 요소로 이루어집니다.
서버리스 제품을 사용하면 TCO를 더 쉽게 이해할 수 있습니다. compute는 Databricks에서 관리하므로 클라우드 인프라 비용은 Databricks 비용에 포함되어 Databricks 시스템 테이블에서 직접 비용을 중앙에서 파악할 수 있습니다(단, 스토리지 비용은 계속 클라우드 제공업체에 부과됨).
하지만 클래식 컴퓨팅 제품의 TCO를 이해하는 것은 더 복잡합니다. 여기서는 고객이 클라우드 제공업체와 compute를 직접 관리하므로 Databricks 플랫폼 비용과 클라우드 인프라 비용을 모두 조정해야 합니다. 이러한 경우 해결해야 할 두 개의 개별 데이터 소스가 있습니다.
이러한 소스들이 함께 전체 TCO 뷰를 구성합니다. 환경이 여러 클러스터, 작업, 클라우드 계정으로 확장됨에 따라 이러한 데이터세트를 이해하는 것은 비용 관측성 및 재무 거버넌스의 중요한 부분이 됩니다.
클라우드 제공업체마다 비용 데이터를 표시하고 보고하는 방식이 다르기 때문에 Databricks TCO를 측정하는 것은 더욱 복잡합니다. 이러한 데이터세트를 시스템 테이블과 조인하여 정확한 비용 KPI를 생성하는 방법을 이해하려면 클라우드 청구 방식에 대한 깊은 지식이 필요하며, 이는 Databricks 중심의 많은 플랫폼 관리자가 갖추지 못했을 수 있는 지식입니다. 여기서는 Azure Databricks 및 AWS 기반 Databricks의 TCO 측정에 대해 자세히 살펴보겠습니다.
Azure Databricks는 Microsoft Azure 에코시스템 내의 자사 서비스이므로 Databricks 관련 요금은 Databricks 관련 태그를 포함하여 다른 Azure 서비스와 함께 Azure Cost Management에 직접 표시됩니다. Databricks 비용은 Azure 비용 분석 UI와 비용 관리 데이터로 표시됩니다.
하지만 Azure 비용 관리 데이터에는 Databricks 시스템 테이블에 있는 더 심층적인 워크로드 수준의 메타데이터와 성능 메트릭이 포함되어 있지 않습니다. 따라서 많은 조직에서 Azure 청구 내보내기를 Databricks로 가져오려고 합니다.
하지만 이 두 데이터 소스를 완전히 조인하는 것은 시간이 많이 걸리고 심층적인 도메인 지식이 필요하며, 이는 대 부분의 고객이 정의, 유지 관리, 복제할 시간이 없는 작업입니다. 여기에는 다음과 같은 몇 가지 어려움이 있습니다.
AWS에서 Databricks 비용은 비용 및 사용량 보고서(CUR) 와 AWS Cost Explorer에 표시되지만, Azure와 달리 비용이 더 집계된 SKU 수준으로 표시됩니다. 또한 Databricks를 AWS Marketplace를 통해 구매한 경우에만 Databricks 비용이 CUR에 표시되며, 그렇지 않은 경우 CUR에는 AWS 인프라 비용만 반영됩니다.
이 경우 AWS 환경을 사용하는 고객에게는 시스템 테이블과 함께 AWS CUR을 공동 분석하는 방법을 이해하는 것이 더욱 중요합니다. 이를 통해 팀은 클러스터 및 워크로드 수준의 컨텍스트와 함께 인프라 비용, DBU 사용량, 할인을 분석하여 여러 AWS 계정 및 리전에 걸쳐 더욱 완전한 TCO 뷰를 생성할 수 있습니다.
하지만 시스템 테이블과 AWS CUR을 조인하는 것은 어려울 수도 있습니다. 일반적인 문제점은 다음과 같습니다.
프로덕션 규모의 Databricks 환경에서는 비용 관련 질문이 빠르게 전체 지출 수준을 넘어섭니다. 팀은 컨텍스트에 맞는 비용, 즉 인프라 및 플랫폼 사용량이 실제 워크로드 및 의사 결정과 어떻게 연결되는지를 이해하고 싶어 합니다. 일반적인 질문은 다음과 같습니다.
이러한 질문에 답하려면 클라우드 제공업체의 재무 데이터와 Databricks의 운영 메타데이터를 통합해야 합니다. 그러나 위에서 설명한 것처럼 팀은 이를 달성하기 위해 맞춤형 파이프라인과 클라우드 및 Databricks 청구에 대한 상세한 기술 자료를 유지 관리해야 합니다.
이러한 요구를 지원하기 위해 Databricks는 Databricks Platform 내에서 클라우드 인프라 및 Databricks 사용 데이터의 수집과 통합 분석을 자동화하는 오픈 소스 솔루션인 클라우드 인프라 비용 필드 솔루션 을 소개합니다.
Field Solution은 Databricks serverless 및 클래식 compute 환경 전반에 걸친 TCO 분석을 위한 통합 기반을 제공함으로써 조직이 비용 가시성을 더 명확하게 확보하고 아키텍처 상의 절충점을 이해하도록 돕습니다. 엔지니어링 팀은 클라우드 지출 및 할인을 추적할 수 있으며, 재무 팀은 주요 비용 동인의 비즈니스 컨텍스트와 소유권을 식별할 수 있습니다.
다음 섹션에서는 솔루션의 작동 방식과 시작하는 방법을 단계별로 살펴보겠습니다.
구성 요소의 이름은 다를 수 있지만 Azure 및 AWS 고객을 위한 Cloud Infra Cost Field Solution은 동일한 원칙을 공유하며 다음과 같은 구성 요소로 나눌 수 있습니다.
AWS 및 Azure Field 솔루션은 모두 단일 클라우드 내에서 운영되는 조직에 탁월하지만, Delta Sharing을 사용하여 멀티클라우드 Databricks 고객을 위해 결합할 수도 있습니다.
Azure Databricks용 Cloud Infra Cost Field Solution은 다음 아키텍처 구성 요소로 구성됩니다.
Azure Databricks 솔 루션 아키텍처

이 솔루션을 배포하려면 관리자는 Azure 및 Databricks에서 다음 권한을 보유해야 합니다.
GitHub 리포지토리 에서 더 자세한 설정 지침을 제공하지만, 개략적으로 Azure Databricks용 솔루션은 다음 단계를 따릅니다.
[Azure] Azure Cost Management Export 를 구성하여 Azure 청구 데이터를 스토리지 계정으로 내보내고 데이터가 성공적으로 내보내지고 있는지 확인합니다.
Azure 비용 관리 내보내기가 구성된 스토리지 계정

Azure Databricks TCO를 표시하는 AI/BI 대시보드

AWS 기반 Databricks 솔루션은 AWS 비용 및 사용 보고서 (CUR) 2.0 데이터를 수집하고 메달리온 아키텍처를 사용하여 Databricks에 영구 저장하도록 함께 작동하는 여러 아키텍처 구성 요소로 이루어져 있습니다.
이 솔루션을 배포하려면 AWS 및 Databricks 전반에 걸쳐 다음 권한과 구성이 준비되어야 합니다.

GitHub 리포지토리에서 더 자세한 설정 지침을 제공하지만, 개략적으로 AWS Databricks용 솔루션은 다음 단계를 따릅니다.

Azure 및 AWS 솔루션에서 볼 수 있듯이, 이와 같은 솔루션이 지원하는 실제 사례는 다음과 같이 많습니다.
실용적인 예로, 수천 개의 워크로드를 보유한 대규모 조직의 FinOps 실무자는 특정 금액의 비용이 들지만 CPU 및/또는 메모리 사용률이 낮은 워크로드를 찾아 쉽게 최적화할 수 있는 부분을 찾는 임무를 맡을 수 있습니다. 이제 조직의 TCO 정보가 Cloud Infra Cost Field 솔루션을 통해 표시되므로 실무자는 해당 데이터를 노드 타임라인 시스템 테이블(AWS, AZURE, GCP)에 조인하여 이 정보를 표시하고 최적화가 완료되면 비용 절감 효과를 정확하게 정량화할 수 있습니다. 가장 중요한 질문은 각 고객의 비즈니스 요구 사항에 따라 달라집니다. 예를 들어 General Motors는 이러한 유형의 솔루션을 사용하여 위에 제시된 여러 질문과 그 이상의 질문에 답함으로써 레이크하우스 아키텍처에서 최대의 가치를 얻고 있습니다.
클라우드 인프라 비용 필드 솔루션을 구현하면 조직은 Databricks 및 관련 클라우드 인프라 지출을 통합하여 신뢰할 수 있는 단일 TCO 뷰를 확보하게 되므로 여러 플랫폼에서 비용을 수동으로 조정할 필요가 없습니다. 솔루션을 사용하여 답변할 수 있는 질문의 예는 다음과 같습니다.
플랫폼 및 FinOps 팀은 Databricks에서 직접 워크스페이스, 워크로드, 비즈니스 단위별로 전체 비용을 심층 분석할 수 있으므로 사용량을 예산, 책임 모델, FinOps 관행에 훨씬 쉽게 맞출 수 있습니다. 모든 기본 데이터를 거버넌스 테이블로 사용할 수 있으므로 팀은 대시보드, 내부 앱 또는 Databricks Genie와 같은 기본 내장 AI 도우미를 사용하여 자체 비용 애플리케이션을 구축할 수 있습니다. 이를 통해 인사이트 생성을 가속화하고 FinOps를 주기적인 보고 업무에서 상시 운영 기능으로 전환할 수 있습니다.
지금 바로 GitHub에서 Cloud Infra Cost Field Solution 을 배포하고(link 여기, AWS 및 Azure에서 사용 가능) 전체 Databricks 지출에 대한 완전한 가시성을 확보하세요. 완전한 가시성이 확보되면 자동화된 인프라 관리를 위한 서버리스 사용을 고려하는 등 Databricks 비용을 최적화할 수 있습니다.
이 솔루션의 일부로 생성된 대시보드와 파이프라인은 나머지 인프라 비용과 함께 Databricks 지출 분석을 시작할 수 있는 빠르고 효과적인 방법을 제공합니다. 하지만 모든 조직은 요금을 다르게 할당하고 해석하므로 필요에 맞게 모델과 변환을 추가로 조정할 수 있습니다. 일반적인 확장에는 귀속 정확도를 높이기 위해 인프라 비용 데이터를 추가 Databricks 시스템 테이블(AWS | AZURE | GCP)과 조인하거나, 인스턴스 풀을 사용할 때 공유 VM 비용을 분리 또는 재할당하는 로직을 구축하거나, VM 예약을 다르게 모델링하거나, 장기적인 비용 추세를 지원하기 위해 기록 백필을 통합하는 것이 포함됩니다. 모든 하이퍼스케일러 비용 모델과 마찬가지로 내부 보고, 태그 지정 전략 및 FinOps 요구 사항에 맞게 default 구현을 넘어 파이프라인을 사용자 지정할 수 있는 여지가 많습니다.
Databricks DSA(Delivery 솔루션 Architects) 는 조직 전반의 데이터 및 AI 이니셔티브를 가속화합니다. 이들은 아키텍처 리더십을 제공하고, 비용 및 성능을 위해 플랫폼을 최적화하며, 개발자 경험을 향상시키고, 성공적인 프로젝트 실행을 주도합니다. DSA는 초기 배포와 프로덕션 등급 솔루션 간의 격차를 해소하며, 데이터 엔지니어링, 기술 책임자, 경영진 및 기타 이해관계자를 포함한 다양한 팀과 긴밀하게 협력하여 맞춤형 솔루션을 보장하고 가치 실현 시간을 단축합니다. DSA가 데이터 및 AI 여정 전반에 걸쳐 제공하는 맞춤형 실행 계획, 전략적 가이드 및 지원 혜택을 받으려면 Databricks 계정 팀에 문의하세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.