주요 컨텐츠로 이동

AtScale와 Databricks를 이용한 시맨틱 레이크하우스 구축

범용 시맨틱 레이어가 Databricks 레이크하우스를 민주화하고 셀프 서비스 BI를 지원하는 방법을 알아보세요.

Building a Semantic Lakehouse With AtScale and Databricks

발행일: 2022년 11월 10일

파트너Less than a minute

이 글은 AtScale과 Databricks가 협력하여 작성했습니다. 기여해주신 AtScale의 기술 제휴 매니저 Kieran O'Driscoll님께 감사드립니다.

 

Databricks의 솔루션 아키텍트인 Kyle Hale이 몇 달 전 블로그에서 "Semantic Lakehouse"라는 용어를 만들었습니다. 이 용어는 BI 스택을 간소화하고 레이크하우스의 강력한 기능을 활용할 수 있는 잠재력에 대한 훌륭한 개요를 제공합니다. AtScale과 Databricks가 공동 고객을 지원하기 위해 점점 더 많이 협력함에 따라, Databricks와 AtScale의 시맨틱 레이어 플랫폼을 활용하여 신속하게 시맨틱 레이크하우스를 구축할 수 있는 잠재력이 구체화되었습니다. 시맨틱 레이크하우스는 물리적 테이블 위에 추상화 계층을 제공하며, 주제 영역별로 데이터를 정의하고 구성하며 엔터티, 속성 및 조인을 정의함으로써 데이터 소비에 대한 비즈니스 친화적인 보기를 제공합니다. 이 모든 것이 비즈니스 분석가와 최종 사용자의 데이터 소비를 간소화합니다.

대부분의 기업은 여전히 데이터 민주화에 어려움을 겪고 있습니다

의사 결정권자에게 데이터를 제공하는 것은 오늘날 대부분의 조직이 직면한 과제입니다. 조직이 클수록 분석을 소비하고 준비하는 데 단일 표준을 적용하기가 더 어려워집니다. 기업의 절반 이상이 세 개 이상의 BI 도구를 사용한다고 보고했으며, 3분의 1 이상이 네 개 이상의 도구를 사용한다고 합니다. BI 사용자 외에도 데이터 과학자들은 자신만의 선호도를 가지고 있으며, 애플리케이션 개발자들도 마찬가지입니다.

이러한 도구들은 서로 다른 방식으로 작동하며 다른 쿼리 언어를 사용합니다. 여러 비즈니스 단위가 서로 다른 사일로화된 데이터 복사본이나 Tableau Hyper Extracts, Power BI Premium Imports 또는 Excel 사용자를 위한 Microsoft SQL Server Analysis Services(SSAS)와 같은 기존 OLAP 큐빙 솔루션에 의존하여 의사 결정을 내릴 때 분석 결과의 충돌은 거의 확실합니다.

다양한 데이터 마트와 데이터 웨어하우스에 데이터를 보관하고, 다양한 데이터베이스에 데이터를 추출하며, 보고 도구에 외부적으로 캐시된 데이터를 보관하는 것은 기업에 대한 단일 진실 공급원을 제공하지 못하며 데이터 이동, ETL, 보안 및 복잡성을 증가시킵니다. 이는 데이터 거버넌스의 악몽이 되며, 조직이 BI 계층의 서로 다른 데이터 사일로에서 잠재적으로 오래된 데이터로 비즈니스를 운영하고 Databricks 레이크하우스의 전체 성능을 활용하지 못하고 있음을 의미합니다.

범용 시맨틱 레이어의 필요성

AtScale 시맨틱 레이어는 모든 분석 소비 도구와 Databricks 레이크하우스 사이에 위치합니다. 시맨틱 레이어는 데이터의 물리적 형식과 위치를 추상화하여 Delta Lake에 저장된 데이터를 분석 준비 상태로 만들고 비즈니스 사용자의 선택 도구에서 쉽게 소비할 수 있도록 합니다. 소비 도구는 다음 프로토콜 중 하나를 통해 AtScale에 연결할 수 있습니다:

  • SQL의 경우, AtScale 엔진은 Hive SQL 웨어하우스로 나타납니다.
  • MDX 또는 DAX의 경우, AtScale은 SQL Server Analysis Services(SSAS) 큐브로 나타납니다.
  • REST 또는 Python 애플리케이션의 경우, AtScale은 웹 서비스로 나타납니다.

AtScale은 데이터를 로컬에서 처리하는 대신 최적화된 SQL로 Databricks에 쿼리를 푸시합니다. 이는 사용자의 쿼리가 컴퓨팅, 확장 및 성능을 위해 Databricks SQL을 사용하여 Delta Lake에서 직접 실행됨을 의미합니다.

Databricks 및 Atscale을 이용한 시맨틱 레이크하우스
Databricks 및 Atscale을 이용한 시맨틱 레이크하우스

범용 시맨틱 레이어를 사용하는 추가적인 이점은 AtScale의 자율 성능 최적화 기술이 사용자 쿼리 패턴을 식별하여 데이터 엔지니어링 팀이 수행하는 것처럼 집계를 자동으로 생성하고 유지 관리한다는 것입니다. 이제 아무도 이러한 집계를 생성하고 유지 관리하기 위해 개발 시간을 투자할 필요가 없습니다. Atscale에서 최적의 성능을 위해 자동으로 생성되고 관리되기 때문입니다. 이러한 집계는 Delta Lake에 물리적 Delta 테이블로 생성되며 "Diamond Layer"로 생각할 수 있습니다. 이러한 집계는 AtScale에서 완전히 관리되며 Databricks 레이크하우스의 BI 보고서의 확장성과 성능을 향상시키는 동시에 분석 데이터 파이프라인 및 관련 데이터 엔지니어링을 획기적으로 간소화합니다.

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

도구에 구애받지 않는 시맨틱 레이크하우스 만들기

Databricks 레이크하우스 플랫폼의 비전은 모든 데이터, 분석 및 AI 워크로드를 지원하는 단일 통합 플랫폼입니다. Kyle이 설명한 "Semantic Lakehouse"는 간소화된 BI 스택에 대한 훌륭한 모델입니다.

AtScale은 도구에 구애받지 않는 시맨틱 레이어를 통해 BI 워크로드와 AI/ML 사용 사례를 지원함으로써 시맨틱 레이크하우스의 아이디어를 확장합니다. AtScale과 Databricks의 조합은 Tableau, Power BI, Excel 또는 Looker 등 어떤 프레젠테이션 계층에도 시맨틱 레이크하우스 아키텍처가 확장될 수 있음을 의미합니다. 이들 모두 AtScale의 동일한 시맨틱 레이어를 사용할 수 있습니다.

시맨틱 레이크하우스 - 레이크하우스에서 직접 모든 분석
시맨틱 레이크하우스 - 레이크하우스에서 직접 모든 분석

레이크하우스의 등장으로 조직은 더 이상 BI 및 AI/ML 팀이 고립되어 작업하지 않습니다. AtScale의 범용 시맨틱 레이어는 Excel의 비즈니스 사용자든 Notebook을 사용하는 데이터 과학자든 관계없이 Databricks 레이크하우스 플랫폼의 전체 성능을 활용하면서 모든 엔터프라이즈 데이터에 대한 일관된 액세스를 제공하도록 지원합니다.

추가 자료

Databricks의 수석 제품 전문가인 Franco Patano와 함께한 패널 토론을 시청하여 자세한 정보를 얻고 이러한 도구가 민첩하고 확장 가능한 분석 플랫폼을 만드는 데 어떻게 도움이 되는지 알아보세요.

AtScale 또는 레거시 EDW, BI 및 보고 스택을 Databricks 및 AtScale로 현대화하고 마이그레이션하는 방법에 대해 질문이 있으시면 [email protected] 또는 Databricks에 문의해 주세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요