전체 데이터 자산 전반에 걸쳐 인텔리전스를 구현하기 위해 Genie를 페더레이션된 데이터 소스에 연결
작성자: John Spencer
*Lakehouse Federation을 사용하여 Genie를 데이터에 연결하면 "빅뱅" 마이그레이션으로 인한 지연을 방지할 수 있습니다.
*Unity Catalog를 페더레이션 및 관리형 데이터 모두에 대한 신뢰할 수 있는 단일 원천으로 활용하여 AI 워크로드를 안전하고 프로덕션에 바로 사용할 수 있도록 지원합니다.
*즉시 자연어로 데이터 쿼리를 시작하세요. Unity Catalog 관리형 테이블로 업그레이드하여 성능을 최적화할 수 있습니다.
Agentic AI는 12개월 전에는 존재하지 않았던 교차 소스 추론(cross-source reasoning)에 대한 수요를 창출했습니다. 비즈니스 사용자는 "지난 분기에 어떤 마케팅 캠페인이 가장 높은 ROI를 기록했나요?"와 같은 자연어 질문을 던지고 데이터에서 즉각적인 인사이트를 얻고 싶어 합니다.
문제는 엔터프라이즈 데이터가 AWS Glue, Snowflake, Oracle, BigQuery, Postgres 등 여러 시스템에 분산되어 있는 경우가 많고, 때로는 기존의 독점 포맷에 갇혀 있어 모든 데이터를 단일 시스템으로 마이그레이션하는 데 수개월이 걸릴 수 있다는 점입니다.
데이터를 마이그레이션할 필요 없이 전체 데이터 자산에 대해 여전히 추론할 수 있다면 어떨까요? Lakehouse Federation을 사용하면 Databricks가 데이터가 어디에 있든 기존 소스에 직접 연결하고, 이를 Unity Catalog의 단일 거버넌스 계층 아래로 가져옵니다. 권한, 리니지(lineage), 액세스 제어가 연결된 모든 시스템에서 일관되게 작동하므로 소스별로 보안을 재구축할 필요 없이 엔터프라이즈급 보안을 확보할 수 있습니다. 그런 다음 비즈니스 사용자는 Genie를 통해 평이한 영어로 통합된 데이터를 쿼리하여, 단 하나의 파이프라인 구축, 복사 또는 마이그레이션 단계 없이도 연결된 모든 플랫폼에 걸친 답변을 얻을 수 있습니다.
이 블로그에서는 외부 소스에 연결하고, 메타데이터를 Unity Catalog에 동기화하고, Genie를 통해 질문하는 방법을 단 몇 분 만에 설정하는 과정을 살펴보겠습니다.
Lakehouse Federation을 사용하면 사용자 및 AI 에이전트가 외부 소스에 안전하게 연결하고 이를 네이티브 데이터와 함께 거버넌스 하에 둘 수 있습니다. 이를 통해 Genie는 마이그레이션 없이도 확장된 데이터 자산에 즉시 액세스할 수 있습니다. Lakehouse Federation은 20개가 넘는 가장 인기 있는 데이터 플랫폼에 연결할 수 있습니다. 예시로, AWS Glue를 사용하여 얼마나 쉽게 설정할 수 있는지 살펴보겠습니다.

먼저 외부 AWS Glue 프로젝트에 대한 연결을 생성합니다. 이 예시에서는 마케팅 캠페인 데이터가 포함된 Glue 데이터베이스에 연결합니다.
다음으로 데이터를 Unity Catalog에 인플레이스(in-place)로 동기화합니다. 이렇게 하면 데이터를 복사할 필요 없이 모든 테이블에 액세스할 수 있으므로 데이터가 항상 최신 상태로 유지됩니다. 또한 소스 시스템에 대한 어떠한 중단도 방지할 수 있습니다.
원시 테이블 및 열 이름은 AI 에이전트에게 무의미한 경우가 많습니다. AI 에이전트는 기본적으로 status_code 4가 "Urgent"를 의미하거나 spend_amount가 마케팅 비용을 나타낸다는 사실을 알지 못합니다.
많은 조직이 이미 소스 시스템에서 스키마를 문서화하는 데 투자해 왔습니다. 즉, Glue에 직접 테이블 설명, 열 주석, 비즈니스 용어집 용어를 추가해 두었습니다. 이제 Lakehouse Federation은 이러한 컨텍스트를 자동으로 가져옵니다. 외부 카탈로그(foreign catalog)를 생성하면 소스 시스템의 주석과 설명이 테이블 메타데이터와 함께 Unity Catalog로 페더레이션됩니다.