주요 컨텐츠로 이동
제품

데이터가 어디에 있든, 모든 데이터와 대화해 보세요

전체 데이터 자산 전반에 걸쳐 인텔리전스를 구현하기 위해 Genie를 페더레이션된 데이터 소스에 연결

작성자: John Spencer

*Lakehouse Federation을 사용하여 Genie를 데이터에 연결하면 "빅뱅" 마이그레이션으로 인한 지연을 방지할 수 있습니다.
*Unity Catalog를 페더레이션 및 관리형 데이터 모두에 대한 신뢰할 수 있는 단일 원천으로 활용하여 AI 워크로드를 안전하고 프로덕션에 바로 사용할 수 있도록 지원합니다.
*즉시 자연어로 데이터 쿼리를 시작하세요. Unity Catalog 관리형 테이블로 업그레이드하여 성능을 최적화할 수 있습니다.

Agentic AI는 12개월 전에는 존재하지 않았던 교차 소스 추론(cross-source reasoning)에 대한 수요를 창출했습니다. 비즈니스 사용자는 "지난 분기에 어떤 마케팅 캠페인이 가장 높은 ROI를 기록했나요?"와 같은 자연어 질문을 던지고 데이터에서 즉각적인 인사이트를 얻고 싶어 합니다.

문제는 엔터프라이즈 데이터가 AWS Glue, Snowflake, Oracle, BigQuery, Postgres 등 여러 시스템에 분산되어 있는 경우가 많고, 때로는 기존의 독점 포맷에 갇혀 있어 모든 데이터를 단일 시스템으로 마이그레이션하는 데 수개월이 걸릴 수 있다는 점입니다.

데이터를 마이그레이션할 필요 없이 전체 데이터 자산에 대해 여전히 추론할 수 있다면 어떨까요? Lakehouse Federation을 사용하면 Databricks가 데이터가 어디에 있든 기존 소스에 직접 연결하고, 이를 Unity Catalog의 단일 거버넌스 계층 아래로 가져옵니다. 권한, 리니지(lineage), 액세스 제어가 연결된 모든 시스템에서 일관되게 작동하므로 소스별로 보안을 재구축할 필요 없이 엔터프라이즈급 보안을 확보할 수 있습니다. 그런 다음 비즈니스 사용자는 Genie를 통해 평이한 영어로 통합된 데이터를 쿼리하여, 단 하나의 파이프라인 구축, 복사 또는 마이그레이션 단계 없이도 연결된 모든 플랫폼에 걸친 답변을 얻을 수 있습니다.

이 블로그에서는 외부 소스에 연결하고, 메타데이터를 Unity Catalog에 동기화하고, Genie를 통해 질문하는 방법을 단 몇 분 만에 설정하는 과정을 살펴보겠습니다.

작동 원리

Lakehouse Federation을 사용하면 사용자 및 AI 에이전트가 외부 소스에 안전하게 연결하고 이를 네이티브 데이터와 함께 거버넌스 하에 둘 수 있습니다. 이를 통해 Genie는 마이그레이션 없이도 확장된 데이터 자산에 즉시 액세스할 수 있습니다. Lakehouse Federation은 20개가 넘는 가장 인기 있는 데이터 플랫폼에 연결할 수 있습니다. 예시로, AWS Glue를 사용하여 얼마나 쉽게 설정할 수 있는지 살펴보겠습니다.

Genie across all your data

1. Lakehouse Federation으로 외부 데이터 소스에 연결하기

먼저 외부 AWS Glue 프로젝트에 대한 연결을 생성합니다. 이 예시에서는 마케팅 캠페인 데이터가 포함된 Glue 데이터베이스에 연결합니다.

다음으로 데이터를 Unity Catalog에 인플레이스(in-place)로 동기화합니다. 이렇게 하면 데이터를 복사할 필요 없이 모든 테이블에 액세스할 수 있으므로 데이터가 항상 최신 상태로 유지됩니다. 또한 소스 시스템에 대한 어떠한 중단도 방지할 수 있습니다.

2. 기존 메타데이터 활용하기

원시 테이블 및 열 이름은 AI 에이전트에게 무의미한 경우가 많습니다. AI 에이전트는 기본적으로 status_code 4가 "Urgent"를 의미하거나 spend_amount가 마케팅 비용을 나타낸다는 사실을 알지 못합니다.

많은 조직이 이미 소스 시스템에서 스키마를 문서화하는 데 투자해 왔습니다. 즉, Glue에 직접 테이블 설명, 열 주석, 비즈니스 용어집 용어를 추가해 두었습니다. 이제 Lakehouse Federation은 이러한 컨텍스트를 자동으로 가져옵니다. 외부 카탈로그(foreign catalog)를 생성하면 소스 시스템의 주석과 설명이 테이블 메타데이터와 함께 Unity Catalog로 페더레이션됩니다.

이는 다음을 의미합니다:

  • 기존 열 설명(예: "spend_amount — USD 기준 총 마케팅 지출")이 수동으로 다시 입력할 필요 없이 그대로 이월됩니다
  • 비즈니스 컨텍스트를 문서화하는 테이블 수준 주석이 보존됩니다
  • Genie와 같은 AI 도구가 이 메타데이터를 즉시 활용하여 스키마를 이해할 수 있습니다

현재 Glue 및 BigQuery에서 외부 테이블 주석을 지원합니다. 프리뷰 버전에서는 PostgreSQL, Redshift, MySQL, Snowflake로 지원을 확장했으며, 매달 더 많은 소스를 추가할 계획입니다 ( 프리뷰 신청하기 ).

3. 페더레이션된 데이터 위에 재사용 가능한 시맨틱 정의하기

상속된 주석은 Genie에게 데이터가 무엇인지 알려주지만, 비즈니스에서 이를 어떻게 측정하는지까지는 포착할 수 없습니다. 열 주석은 spend_amount이 USD 기준 마케팅 비용임을 설명할 수 있지만, ROI가 노출수를 지출로 나눈 값이라는 것은 메트릭 정의만이 인코딩할 수 있습니다. 이것이 바로 비즈니스 로직이며, 역사적으로 이는 흩어진 대시보드 공식, 임시 SQL, 구전 지식에 존재해 왔으며 팀마다 정의가 미묘하게 다른 경우가 많았습니다.

Unity Catalog Semantics를 사용하면 해당 비즈니스 로직을 거버넌스 대상 오브젝트로 한 번만 정의할 수 있으므로, 이를 쿼리하는 모든 도구에서 동일하고 신뢰할 수 있는 계산 결과를 얻을 수 있습니다. 또한 페더레이션된 테이블은 Unity Catalog에서 일급 시민(first-class citizen)으로 취급되므로, 소스 시스템을 전혀 떠나지 않은 데이터에서도 이 기능이 작동합니다. 마이그레이션 없이도 페더레이션된 모든 소스에서 직접 ROI와 같은 메트릭을 정의할 수 있습니다.

Unity Catalog 메트릭을 사용하면 페더레이션된 테이블에서 직접 한 번만 정의하면 됩니다. 메트릭 뷰는 사용자가 그룹화하고 필터링할 수 있는 campaign_idquarter와 같은 필드와 비즈니스 공식 자체를 인코딩하는 측정값인 roi의 두 가지를 정의합니다.

ROI를 한 번만 정의하면 Genie, AI/BI 대시보드, 노트북 모두 동일하게 계산합니다. 정의가 변경되면 한 곳에서만 업데이트하면 되며 모든 소비자가 변경 사항을 상속받습니다.

4. Genie에게 질문하기

데이터가 연결되고 컨텍스트화되면, 마케팅 분석가는 이제 Genie 룸을 열고 처음에 던졌던 질문인 "지난 분기에 어떤 마케팅 캠페인이 가장 높은 ROI를 기록했나요?"를 질문할 수 있습니다.

Genie는 처음부터 ROI 공식을 재구성할 필요가 없습니다. 메트릭 뷰에서 인증된 roi 측정값으로 확인하고 페더레이션된 데이터에 대해 올바른 SQL을 자동으로 생성합니다.

결과는 어떨까요? Glue에 있는 라이브 데이터에서 파생된 즉각적이고 정확한 답변을 얻을 수 있습니다.

Lakehouse Federation을 기반으로 하는 Genie는 Unity Catalog가 전체 데이터 자산에 걸쳐 AI 인사이트를 지원하는 방법의 한 가지 예에 불과합니다. Genie 룸의 비즈니스 분석가가 보낸 쿼리이든 에이전트 기반 워크플로이든 관계없이, Unity Catalog는 이를 작동하게 하는 거버넌스 및 컨텍스트화된 기반을 제공합니다.

향후 계획

당사는 Lakehouse Federation을 Databricks 플랫폼으로 진입하는 가장 빠른 방법으로 만들기 위해 지속적으로 투자하고 있습니다:

  • 페더레이션된 테이블을 위한 더 풍부한 비즈니스 시맨틱: 기존 주석을 가져오는 것 외에도, AI 기반 설명 및 비즈니스 컨텍스트로 페더레이션된 메타데이터를 보강하는 새로운 방법을 구축하여 Genie를 기본적으로 더욱 스마트하게 만들고 있습니다.
  • 관리형 테이블로 업그레이드하여 성능 향상: SET MANAGED 기능을 사용하여 외부 테이블을 Databricks의 Unity Catalog 관리형 테이블로 변환하고, 50% 이상의 비용 절감 및 20배 빠른 쿼리 속도의 혜택을 누려보세요.
  • 더 많은 카탈로그 및 플랫폼에 대한 페더레이션 지원: 새로운 페더레이션 소스를 지속적으로 추가하여 더 많은 데이터 자산에 대한 거버넌스 액세스를 제공하고 있습니다.

시작하기

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.