주요 컨텐츠로 이동

Lakehouse Federation의 일반 공급 발표

데이터가 어디에 있든 모든 데이터를 검색, 쿼리, 거버넌스하세요.

Lakehouse Federation

발행일: 2024년 8월 1일

공지사항Less than a minute

오늘, Unity Catalog의 Lakehouse Federation이 AWS, Azure 및 GCP 전반에 걸쳐 일반 공급(GA)되었음을 발표하게 되어 기쁩니다! Lakehouse Federation을 사용하면 모든 데이터를 한곳에서 검색, 쿼리 및 관리할 수 있습니다. 이번 GA 릴리스를 통해 통합된 워크로드에 대해 향상된 안정성, 보안 및 엔터프라이즈 준비 상태를 기대할 수 있습니다.

이 블로그 게시물에서는 Lakehouse Federation의 GA 기능에 대해 알아보고, 세계 유수의 기업에서 민첩한 분석을 어떻게 지원하는지 살펴보고, 다음 단계를 논의합니다.

Lakehouse Federation 개요

전 세계 조직은 규모나 산업에 관계없이 데이터와 AI를 활용하여 혁신을 주도하고 있습니다. 그러나 과거, 조직 또는 기술적 이유로 인해 데이터는 여러 운영 및 분석 시스템에 분산되어 있는 경우가 많습니다. 이러한 분산으로 인해 다음과 같은 몇 가지 문제가 발생합니다.

  1. 모든 데이터 검색 및 액세스 어려움
  2. 엔지니어링 병목 현상으로 인한 느린 실행
  3. 분산된 시스템 전반의 약한 규정 준수

Lakehouse Federation은 이러한 중요한 문제점을 해결하고 조직이 사일로화된 데이터 시스템을 lakehouse의 확장으로 노출, 쿼리 및 관리할 수 있도록 단순화합니다. 이러한 새로운 기능을 통해 다음을 수행할 수 있습니다.

  1. 데이터 에스테이트의 통합 뷰 구축: 구조화 및 비구조화된 모든 데이터를 한 곳에서 자동으로 분류 및 검색하고 조직의 모든 사람이 데이터가 어디에 있든 관계없이 손끝에서 사용할 수 있는 모든 데이터에 안전하게 액세스하고 탐색할 수 있도록 합니다.
  2. 단일 엔진으로 모든 데이터 효율적으로 쿼리 및 결합: 가장 완벽한 데이터에서 모든 데이터, 분석 및 AI 사용 사례에 걸쳐 즉석 분석 및 프로토타이핑을 가속화합니다. 수집이 필요 없으며 단일 엔진에서 수행됩니다. 소스 전반의 고급 쿼리 계획 및 캐싱은 단일 쿼리로 여러 플랫폼의 데이터에 액세스하고 결합할 때에도 최적의 쿼리 성능을 보장합니다.
  3. 데이터 소스 전반의 데이터 보호: 단일 권한 모델을 사용하여 액세스 규칙을 설정하고 적용하며 모든 데이터 소스의 모든 데이터를 보호합니다. 행 및 열 수준 보안, 태그 기반 정책과 같은 규칙을 적용하고, 중앙 집중식 감사를 플랫폼 전반에 걸쳐 일관되게 적용하고, 데이터 사용량을 추적하고, 내장된 데이터 계보 및 감사 가능성을 통해 규정 준수 요구 사항을 충족합니다.

5,000개 이상의 Databricks 고객이 Lakehouse Federation을 활용하여 데이터 에스테이트를 통합하고 일관된 데이터 검색 및 거버넌스를 보장하고 있습니다.

Lakehouse Federation

"Lakehouse Federation을 통해 Unity Catalog에서 여러 데이터 웨어하우스 및 데이터베이스에 걸쳐 모든 데이터 자산을 결합하여 데이터 검색 및 액세스 관리를 단순화할 수 있었습니다. 이를 통해 수집 및 즉석 쿼리를 포함한 다양한 사용 사례를 활용할 수 있어 분석이 그 어느 때보다 쉬워졌습니다." — Alexander Booth, Texas Rangers 리서치 부국장

일반 공급

MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, SQL Server 및 Azure Synapse 커넥터에 대한 일반 공급(GA)을 발표하게 되어 기쁩니다.

이번 릴리스는 몇 가지 영역에서 중요한 이정표를 나타냅니다.

  1. 향상된 성능: 이번 릴리스에서는 SQL Server, Postgres, MySQL, Snowflake, Redshift 및 Synapse 연결에 푸시다운(즉, 기본 데이터베이스로 위임)할 수 있는 표현식 및 연산자의 범위를 크게 늘렸습니다. 실제로는 사용자가 쿼리를 수정할 필요 없이 대기 시간 감소 및 더 빠른 Materialized View(MV) 생성을 의미합니다.
  2. 향상된 안정성 및 관찰 가능성: 통합 및 푸시다운 프레임워크를 업데이트하여 보다 복원력 있게 만들고 사용자 워크로드에 영향을 주지 않고 오류 시나리오를 처리합니다.
    또한 통합별 메타데이터 및 통계를 지원하는 향상된 쿼리 프로필을 도입하여 관리자가 모니터링하고 감사할 수 있는 더 나은 방법을 제공합니다.
  3. 새로운 보안 옵션: Azure 생태계 소스 및 Snowflake부터 시작하여 암호 없는 인증 옵션, Azure SQL에 대한 Azure AD/Entra ID 지원 및 Snowflake에 대한 OAuth 지원을 추가하고 있습니다. 앞으로 몇 달 안에 AWS/Google 생태계에 대한 유사한 기능을 구축할 것입니다.
"Lakehouse Federation은 일관된 거버넌스를 한 곳에서 데이터 환경을 통합하고 상당한 운영 효율성 향상을 달성하는 데 도움이 되었습니다. 데이터 인사이트와 품질이 이제 원활하게 통합되어 광고 투자의 가치를 극대화하기 위한 최상의 인사이트를 고객에게 제공하는 데 집중할 수 있습니다." — Bob Wuisman, Ebiquity plc. 글로벌 프로덕션 책임자
가이드

최신 분석을 위한 컴팩트 가이드

다음 단계

카탈로그 통합

Hive Federation
카탈로그 통합은 Hive 메타스토어 및 Glue 테이블에서 열 마스크, AI 주석 및 계보와 같은 Unity Catalog 기능을 지원합니다.

Lakehouse Federation을 사용하여 Hive Metastore(HMS) 및 AWS Glue의 데이터를 검색, 관리 및 액세스합니다. 카탈로그 통합을 통해 외부(또는 내부 Databricks) HMS를 Unity Catalog의 외부 카탈로그로 쉽게 마운트할 수 있습니다.

Databricks HMS(내부) 사용자에게는 Unity Catalog를 시작하고 Unity Catalog에서 제공하는 통합 거버넌스 기능을 활용하는 간단하고 직접적인 방법입니다.

외부 HMS 및 AWS Glue 사용자의 경우 워크플로를 변경하지 않고도 Unity Catalog에서 직접 외부 메타스토어 데이터에 액세스할 수 있는 긴밀하게 통합된 방법을 제공합니다.

카탈로그 통합은 현재 비공개 미리 보기 상태입니다.

새로운 커넥터

지원되는 데이터 소스 목록을 Lakehouse Federation으로 확장하는 것은 고객이 데이터 에스테이트를 통합하도록 돕는 우리의 사명에서 최우선 과제입니다. Google BigQuery(세 주요 클라우드 공급자 전반의 데이터 웨어하우스 통합 지원 완료) 및 Salesforce Data Cloud 커넥터가 현재 공개 미리 보기 상태임을 발표하게 되어 기쁩니다.

Lakehouse Federation Connections
새로운 Salesforce Data Cloud, Google Bigquery 및 Hive Metastore 커넥터

Oracle 및 Teradata 커넥터는 곧 미리 보기로 제공될 예정입니다.

고처리량 데이터 웨어하우스 연결

더 큰 테이블을 보유하는 경향이 있는 데이터 웨어하우스에 대한 더 빠른 쿼리 환경을 제공하기 위해 자동 고처리량 데이터 전송 기능을 추가하고 있습니다. 

향후 Amazon Redshift & Snowflake 커넥터를 시작으로 데이터 웨어하우스의 테이블을 빠르게 쿼리하고 구체화할 수 있게 될 것입니다. 내부적으로 Lakehouse Federation은 더 빠르고 대량의 API(예: 객체 스토리지 또는 스테이징 위치로 병렬 오프로드)를 활용하고 이러한 결과를 병렬로 가져올 것입니다(드라이버 병목 현상 없음). 모두 사용자 개입 없이 가능합니다!

Lakehouse Federation을 위한 공유

Lakehouse Federation을 위한 공유

마지막으로 Lakehouse Federation 데이터 공유가 훨씬 쉬워질 것입니다. 곧 출시될 Delta Sharing 통합을 통해 고객은 수신자가 Databricks 또는 기본 데이터 시스템에 액세스할 필요 없이 페더레이션된 테이블을 외부와 공유할 수 있습니다. 이를 통해 여러 시스템에 걸쳐 중복 복사본을 만들 필요가 없어 데이터 공유가 간소화됩니다.

시작하기

  • Lakehouse Federation으로 시작하려면 설명서(AWS, Azure, GCP)를 읽어보세요
  • Lakehouse Federation에 대한 자세한 내용을 알아보려면 2024년 Data and AI Summit의 Lakehouse Federation 세션을 시청하세요
  • Unity Catalog의 최신 발표에 대해 자세히 알아보려면 2023년 Data+AI Summit에서 Databricks의 공동 설립자이자 최고 기술 책임자인 Matei Zaharia의 기조 연설을 시청하세요

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요