주요 컨텐츠로 이동

데이터에서 대화로: 고성능 Genie Space 구축을 위한 모범 사례 가이드

셀프 서비스 분석 모범 사례 - Genie Spaces를 활용한 AI 기반 BI

From Data to Dialogue: A Best Practices Guide for Building High-Performing Genie Spaces

발행일: February 5, 2026

솔루션2 min read

작성자: 노아 솔로몬

Summary

  • 탄탄한 기반 구축: 큐레이션된 데이터로 시작하여 대규모로 정확성, 성능, 일관성을 개선합니다.
  • Genie에게 조직 학습시키기: 메타데이터, 조인, SQL 패턴을 구성하여 Genie에게 조직의 로직과 언어를 학습시킵니다.
  • 테스트, 개선 및 유지 관리: 데이터와 사용량이 변화함에 따라 벤치마크와 피드백 루프를 사용하여 품질을 유지합니다.

대부분의 조직에서는 누구나 평이한 영어로 데이터에 관해 질문하고 즉시 정확한 답변을 받을 수 있어야 한다는 기대가 커지고 있습니다. 대규모 언어 모델은 이 목적만을 위해 설계되지 않았으며, 내부 약어, 맞춤 측정항목 또는 비즈니스 엔터티가 서로 어떻게 관련되는지를 이해하지 못합니다. 이러한 맥락이 없으면 간단한 질문이라도 오해의 소지가 있는 결과를 낳을 수 있습니다.

셀프 서비스 분석 모범 사례를 구현하면 조직이 데이터를 query하는 방식이 바뀝니다. Databricks AI/BI Genie는 Databricks Platform에서 언어 모델을 거버넌스 데이터 및 명시적 구성과 결합하여 이러한 격차를 해소합니다. Genie Space는 자연어 질문이 올바른 쿼리로 해석되도록 조직의 논리, 어휘, 규칙을 인코딩하는 곳입니다.

신뢰할 수 있는 Genie Space를 구축하려면 AI를 데이터베이스에 연결하는 것 이상의 작업이 필요합니다. 데이터 모델링, 메타데이터, 지속적인 검증 전반에 걸쳐 신중한 준비가 필요합니다. 이 가이드는 해당 작업을 확장 가능한 방식으로 수행하기 위한 실용적이고 단계적인 접근 방식을 제공합니다.

1단계: 강력한 데이터 기반 설계

Genie Space의 품질은 기반 데이터의 품질에 따라 크게 달라집니다. 데이터가 이미 큐레이팅되어 있고 일관성이 있다면 Genie의 작업은 더 간단하고, 빠르며, 정확해집니다. 목표는 추가적인 정리 작업 없이도 사람 애널리스트가 신뢰할 수 있는 큐레이팅된 데이터를 노출하는 것입니다.

  • 비정규화 및 사전 조인: 타당한 경우 데이터 모델을 비정규화하는 것부터 시작하세요. 테이블을 사전 조인하면 생성된 쿼리의 복잡성이 제거되고 잘못된 조인이나 집계의 위험이 줄어듭니다.
  • 공통 필드 사전 계산: 회계 기간이나 표준화된 상태 플래그와 같이 일반적으로 사용되는 필드를 사전 계산하여 해당 값이 파생되는 방식에 모호함이 없도록 해야 합니다.
  • 관련 없는 데이터 필터링: 특정 행이나 열을 쿼리해서는 안 되는 경우 데이터 엔지니어링 프로세스 중에 제거하세요. 잘못된 모델링 선택을 보완하기 위해 지침이나 프롬프트에 의존하지 마세요. 규칙이 보편적으로 적용되는 경우 데이터 자체에 적용하세요.

메트릭 뷰는 여러 팀에 걸쳐 일관된 정의를 적용하는 데 핵심적인 역할을 합니다. 메트릭 뷰를 사용하면 수익 또는 활성 사용자 계산과 같은 공유 비즈니스 로직을 한곳에 인코딩할 수 있습니다. Genie는 이러한 정의를 자동으로 상속하므로 모든 쿼리가 동일하게 승인된 로직에 의존하도록 보장합니다. 이를 통해 모호성이 제거되고 단일 진실 공급원(SSOT)이 보장됩니다.

2단계: 벤치마크로 기대 수준 정의하기

메타데이터나 SQL 예시를 구성하기 전에 성공의 기준을 정의해야 합니다. Genie Space는 질문에 답할 뿐만 아니라 정확하고 일관되게 예상된 형식으로 답해야 합니다. 벤치마크는 이를 측정 가능하게 합니다.

  • 주요 질문 목록 작성: 주제 전문가와 협력하여 대표적인 질문 샘플을 수집하세요. 여기에는 간단한 조회와 더 복잡한 분석 쿼리가 모두 포함되어야 합니다. 각 질문에 대해 성공 기준으로 삼을 수 있도록 "실측 정보" 응답을 정의하세요. 이를 통해 Genie가 숫자를 올바르게 계산할 뿐만 아니라 서식 표준도 암묵적으로 준수하는지 확인할 수 있습니다. 예를 들어, 판매자별 총 승인 수익을 확인할 때 벤치마크는 단순히 총합이 정확한 것뿐만 아니라 결과가 올바르게 그룹화되었는지도 보장해야 합니다.
  • 원하는 출력 지정: 각 질문에 대해 예상 출력을 정의하세요. 답변이 특정 형식이어야 하나요? 값을 특정 방식으로 집계해야 하나요? 원하는 형식을 지정하면 쿼리가 공정하게 평가되고 Genie가 조직의 프레젠테이션 표준을 학습하도록 보장합니다.
  • 초기 점수 설정: 벤치마크를 조기에 실행하고 실패를 예상하세요. 초기 실패는 Genie에 어떤 컨텍스트가 부족한지 정확히 보여주기 때문에 유용합니다. 메타데이터와 로직을 구체화하면서 데이터 또는 구성이 변경될 때 이러한 벤치마크를 다시 실행하여 개선 사항을 추적하고 성능 저하를 파악해야 합니다.

벤치마킹 도구를 사용하면 자동화된 프로세스를 통해 일반적인 쿼리 세트를 다시 실행할 수 있습니다. 이는 모든 단계에서 Genie Space의 상태를 평가하기 위한 일관되고 반복 가능한 시스템을 제공하여 진행 상황을 측정하고 회귀를 신속하게 발견할 수 있도록 합니다.

3단계: Genie에게 조직의 로직 학습시키기

탄탄한 데이터 기반을 바탕으로 이제 조직의 구체적인 컨텍스트와 규칙을 Genie에게 학습시켜야 합니다. 여기에는 메타데이터 보강, 관계 정의, SQL 패턴 코드화라는 세 가지의 개별 구성 레이어가 포함됩니다.

  1. 메타데이터 및 어휘 보강 Genie는 Unity Catalog에서 기본 스키마 정보를 가져오지만 '사람'의 맥락을 추가해야 합니다.
    • 테이블 설명: 이를 "미션 선언문"으로 취급하세요. 테이블에 포함된 데이터와 이 데이터가 답변하는 구체적인 비즈니스 질문을 간략하게 설명하세요.
    • 열 설명: 모호한 필드를 명확히 하세요. created_at 또는 status 와 같은 열 이름이 모호한 경우, 설명을 추가하여 무엇을 나타내는지 정확히 명시하세요(예: "주문이 접수된 타임스탬프, UTC").
    • 동의어: 비즈니스 용어와 기술적인 열 이름 사이의 간극을 좁히세요. 동의어를 사용하여 약어(예: "ARR") 또는 내부 용어를 관련 열에 직접 매핑하세요.

    • 값 사전: Genie에게 실제 데이터를 살짝 보여주세요. 범주형 열에 대해 예시 값 또는 값 사전 을 활성화하여 Genie가 명명 규칙을 추측할 필요 없이 정확하게 일치시키도록 하세요(예: "Australia"를 "AUS"에 매핑).

  2. 관계 정의 Genie는 Unity Catalog에 정의된 기본 키와 외래 키를 따르지만, 조인 탭에서 누락된 링크를 수동으로 구성해야 합니다.
    • 카디널리티 정의: 관계가 일대일, 일대다 또는 다대다인지 명시적으로 명시하는 것은 매우 중요합니다. 이렇게 하면 Genie가 행 수를 폭발적으로 증가시키거나 측정항목을 실수로 이중 계산하는 쿼리를 생성하는 것을 방지할 수 있습니다.

  3. SQL로 로직 코딩하기 메타데이터가 Genie에게 데이터가 무엇 인지 알려주는 반면, 제공된 SQL은 데이터를 어떻게 쿼리하는지 알려줍니다.
    • 예시 쿼리: 가장 일반적이거나 복잡한 질문에 대한 "모범적인" 쿼리를 추가하세요. 여기에서는 메타데이터만으로는 설명할 수 없는 복잡한 로직(까다로운 계산, 특정 필터 또는 재사용되는 다단계 집계)을 처리하는 방법을 보여줍니다. Genie가 가변 입력을 동적으로 처리하는 방법을 학습하도록 매개변수도 통합해야 합니다. 사용 가이드라인을 통해 Genie에게 특정 쿼리를 언제 적용할지 명시적으로 알려줄 수 있습니다. 이는 유사한 메트릭의 모호성을 해소하고 Genie가 올바른 시나리오에 맞는 올바른 템플릿을 선택하도록 합니다. 로직 외에도 Genie는 예시 쿼리를 스타일 템플릿으로 취급하여 사용자가 선호하는 서식 및 코딩 규칙을 학습합니다.
    • SQL 표현식: 특히 필터, 차원 또는 측정값 에 대해 재사용 가능한 스니펫을 정의합니다. 이것들은 쿼리를 위한 모듈식 빌딩 블록 역할을 합니다. 결정적으로, 언제 사용해야 하는지에 대한 지침(예: "사용자가 '활성 계정'을 요청할 때마다 이 필터를 적용하세요")을 제공하여 Genie가 추측하는 대신 도구를 올바르게 사용하도록 해야 합니다.

    • 신뢰할 수 있는 함수(UDF): 기본 수식에 변형 없이(예: 표준화된 세금 계산) 그대로 재사용해야 하는 로직에 사용자 정의 함수를 사용합니다. 이 함수는 Genie가 필요한 매개변수만 전달하는 엄격한 함수입니다. 로직이 잠겨 있기 때문에 Genie가 이러한 함수를 실행하면 결과에 "신뢰할 수 있음" 배지가 표시되어 사용자가 답변을 신뢰할 수 있음을 나타냅니다.

4단계: 일반 지침 적용하기

일반 지침은 높은 수준의 컨텍스트를 제공하지만 드물게 사용해야 합니다. 메타데이터나 SQL 예시보다 덜 정확하며, 다른 곳에서 누락된 구성을 보완하는 데 사용해서는 안 됩니다.

일반적인 지침을 추가하기 전에 테이블 설명, 필드 메타데이터, 조인, 예시 값 또는 예시 쿼리를 통해 문제를 해결할 수 있는지 확인하세요. 특정 도구가 적용되지 않는 경우에만 일반적인 지침을 사용하세요.

효과적인 지침은 평이한 언어로 비즈니스 서사를 설명합니다. 이러한 지침은 특정 SQL 동작을 지시하지 않으면서 핵심 엔터티, 수명 주기, 관계를 설명합니다. 테이블 선택을 강제하거나 필터를 하드코딩하거나 출력 서식을 지정하는 지침은 피하세요.

아래의 의사 결정 매트릭스를 사용하여 일반적인 문제를 진단하세요. 일반적인 지침을 추가하기 전에 기본 구성 도구를 사용하여 격차를 해소했는지 확인하세요.

식별된 격차 영역 / 문제점가장 먼저 확인하고 변경할 기능
Genie가 올바른 테이블을 사용하고 있지 않습니다.테이블 설명: 각 테이블의 용도와 사용 시점을 명확하게 설명했나요?
Genie가 필터, 집계 또는 계산에 올바른 필드를 사용하고 있지 않습니다.필드 설명 & 동의어: 해당 필드에 조직의 용어에 대한 명확한 동의어가 있나요? 목적이 잘 설명되어 있나요?
Genie가 사용자 입력을 데이터의 특정 값에 매칭하지 못하고 있습니다(예: "Australia"를 "AUS"에 매핑).예시 값 / 값 사전: Genie에 열의 콘텐츠에 대한 컨텍스트를 제공하기 위해 관련 필드에 이러한 기능이 활성화되어 있나요?
Genie가 잘못된 조인을 생성하거나 테이블을 조인하지 못합니다.조인 탭: 관계와 그 카디널리티(예: 일대다)를 명시적으로 정의했나요?
쿼리 로직이 잘못되었거나 출력 형식(선택된 열, 별칭)이 잘못되었습니다.예시 SQL 쿼리: Genie가 템플릿으로 학습할 수 있는 완전하고 정확한 쿼리 예시를 제공했나요?
핵심 계산은 항상 특정하고 변경 불가능한 방식으로 수행되어야 합니다.SQL 함수(UDF): 이 로직을 함수로 캡슐화하여 항상 정확하고 일관되게 적용되도록 했나요?

이 섹션에서는 광범위하고 개념적인 용어를 사용하여 Genie와 소통할 수 있습니다.

좋은 일반 지침은 서사를 제공합니다

가장 효과적인 일반 지침은 전체 조직 컨텍스트에 대해 높은 수준의, 사람이 읽을 수 있는 설명을 제공하는 것입니다. Genie Space에 대한 경영진 요약 또는 임무 개요를 작성한다고 생각하세요. 여기서 데이터의 목적을 설명하고, 핵심 엔티티를 정의하며, 그것들이 서로 어떻게 관련되는지 평이한 언어로 설명합니다.

이 컨텍스트는 특정 SQL 명령을 지시하지 않고 Genie가 올바른 행동 패턴을 따르도록 유도해야 합니다. 이는 더 구체적인 모든 도구를 사용한 후에도 남아 있는 개념적 격차를 메워줍니다.

다음은 캐시백 및 거래 데이터 세트에 대한 상위 수준 지침을 설정하는 비교 예시입니다.

좋은 일반 지침잘못된 일반 지침
관련 판매자와의 구매에 대해 소비자에게 제공되는 거래 및 캐시백 리워드 분석을 다룹니다.

고객은 지정된 판매업체에서 구매 시 캐시백을 받습니다. 단일 고객은 여러 판매업체에서 여러 번 구매할 수 있습니다. 

고객은 연관된 계정 및 인구 통계 정보를 가집니다. 구매에 대한 캐시백을 받으려면 플랫폼에서 고객이 승인되어야 합니다.

판매자는 연관된 산업 및 기본 캐시백 요율을 가집니다. 단일 판매자는 여러 고객을 가질 수 있으며 각 고객은 여러 번 구매합니다.

거래에는 연관된 구매 및 내부 처리 진행 정보가 있습니다. 거래는 보류 중에서 거부 또는 승인됨으로 진행됩니다. 각 개별 거래에는 단일 연관 고객과 공급업체가 있습니다.
** CRITICAL: ALWAYS JOIN LOWER(merchants.id) = LOWER(transactions.merchant_id) **1

ACRONYMS:
MAU: Monthly active users 
AU: Activated users
CB: Cash back2

If rejected is not specified as a condition, please only use approved. similar for accepted.3

Use these fiscal quarter range definitions for dates q1: July–September (E.g., fy-2024 q1 = Jul–Sep 2023) q2: October–December (E.g., fy-2024 q2 = Oct–Dec 2023) q3: January–March (E.g., fy-2024 q3 = Jan–Mar 2024) q4: April–June (E.g., fy-2024 q4 = Apr–Jun 2024)4

For cash back percent, this is defined as sum(cash_back) / sum(purchase_amount)5

Always exclude merchants.status = ‘deactivated’6
1이 조인은 일반 지침 대신 조인 섹션에서 다루어야 합니다. 핵심 조인 조건은 데이터 모델링 중에 수정되어야 합니다.

2약어는 관련성이 있는 경우 필드 설명 및 동의어에 포함되어야 합니다. 또한 이것들은 무엇에 적용되거나 무엇을 나타내는지에 대한 컨텍스트가 없습니다.

3이 규칙이 어떤 열에, 어떤 조건에서 적용되는지 명확하지 않습니다. 이 규칙들은 메트릭으로 완전히 재작업하거나, 최소한 열 설명 자체에 명시하는 것이 거의 확실히 더 나을 것입니다.

4이것들은 생성된 쿼리의 모호함이나 책임 소재를 없애기 위해 기본 데이터에서 엔지니어링된 필드로 만들어야 합니다. 이는 메트릭 뷰에서 차원으로 사용하기에 매우 적합한 사례일 것입니다.

5이것들은 메트릭 뷰에서 측정값으로 제공되어야 합니다. 최소한 예시 쿼리로 다루어져야 합니다.

6이 제외는 생성된 쿼리에 항상 추가해야 하는 조건이 아니라 데이터 엔지니어링 수준에서 수행해야 합니다.

잘못된 일반 지침

비효율적인 지침은 더 구체적인 도구의 작업을 하려고 합니다. 이러한 지침은 종종 너무 엄격하여 Genie에게 쿼리 작성 방법을 정확하게 지시하는데, 이는 Genie를 혼란스럽게 하거나 다른 구성 영역에서 학습한 컨텍스트와 충돌할 수 있습니다. 다음과 같은 지침은 피하세요.

  • 사용할 테이블 또는 열을 지정하세요. 이는 테이블/필드 설명동의어의 작업입니다.
    • 대신: "사용자가 판매에 대해 질문하면 transactions 테이블과 revenue 열을 사용하세요."
    • 이렇게 하세요: 거래 테이블 설명에 해당 테이블이 판매 분석에 사용된다고 명시하고 수익 열에 관련 동의어가 포함되도록 하세요.
  • 반환할 서식, 별칭 또는 필드를 지정하세요. 이것이 예시 SQL 쿼리의 작업입니다.
    • 다음과 같이 하는 대신: "수익을 표시할 때 열 이름을 'Total Revenue'로 바꾸고 통화 형식으로 지정하세요."
    • 이렇게 하세요: 수익 결과물을 올바르게 계산하고 서식을 지정하는 예시 쿼리를 제공하세요.
  • 특정 값을 하드코딩합니다. 이 로직은 데이터 레이어나 특정 예시 쿼리에 있어야 합니다.
    • 다음과 같이 하는 대신: "국가가 'AUS'인 거래를 항상 필터링하세요."
    • 권장 사항: 올바른 위치에서 처리하세요. 이것이 보편적인 규칙이라면 골드 Layer 데이터에서 필터링하세요. 자주 요청되는 사항이라면 호주 거래를 필터링하는 방법을 보여주는 예시 쿼리를 추가하세요.

5단계: 지속적인 피드백을 통해 품질 유지

Genie 스페이스를 시작하는 것은 프로젝트의 끝이 아니라, 살아 움직이고 발전하는 분석 도구의 시작입니다. 가장 성공적인 Genie 스페이스는 서비스를 제공하는 사용자와의 파트너십을 통해 적극적으로 모니터링되고, 유지 관리되며, 개선되는 것입니다. 이 마지막 단계를 통해 Genie 스페이스는 정적인 구성에서 조직의 변화하는 요구에 적응하는 동적 자산으로 전환됩니다.

주제 전문가를 파트너로 참여시키세요

Genie Space를 개선하기 위한 최고의 정보 소스는 바로 전문 사용자입니다. 소규모 SME 그룹이 챔피언 역할을 하도록 권한을 부여하고 이들에게 직접 액세스 권한을 제공하세요. 기본 내장 피드백 도구를 사용하여 응답을 "좋음" 또는 "나쁨"으로 표시하도록 권장하세요.

이를 통해 강력하고 지속적인 피드백 루프가 생성됩니다. SME가 Genie와 협력하여 질문을 구체화하고 정답을 도출할 때, 해당 상호작용은 귀중한 학습 기회가 됩니다. 최종 'Good' 쿼리와 원래 질문을 캡처하여 예시 쿼리에 추가하세요. 실제 사용을 통해 이루어지는 이러한 반복적인 개선 프로세스는 시간이 지남에 따라 Space의 정확성과 관련성을 향상시키는 가장 효과적인 단일 방법입니다.

모니터링 Tab을 사용하여 사용자 행동을 파악하세요

모니터링 Tab을 통해 사용자가 데이터와 어떻게 상호작용하는지 직접 확인할 수 있습니다. 이 대시보드를 정기적으로 검토하면 사용자 행동에 대한 귀중한 인사이트를 얻고 개선할 부분을 파악하는 데 도움이 됩니다. 확인할 사항:

  • 일반적인 질문: 가장 빈번한 쿼리는 무엇인가요? 이를 통해 사용자가 가장 중요하게 생각하는 것이 무엇인지 파악할 수 있습니다.
  • 개선이 필요한 점: Genie가 지속적으로 부정확하거나 일관성 없는 쿼리를 생성하는 주제가 있습니까?
  • 예상치 못한 사용법: 사람들이 예상치 못한 질문을 하고 있나요?

이 데이터는 새로운 메타데이터 추가, 조인 구체화, 더 타겟팅된 예시 쿼리 생성 또는 사용자의 요구를 더 잘 지원하기 위한 일반 지침 조정 등 노력을 집중해야 할 부분에 대해 명확하고 증거에 기반한 가이드를 제공합니다.

벤치마크 스위트로 변경 사항 검증

개선을 진행하고 데이터가 발전함에 따라 벤치마크 스위트는 품질 보증 및 회귀 테스트를 위한 기본 도구가 됩니다. 새로운 데이터 소스 추가와 같은 Genie Space에 대한 모든 중요한 변경 사항이 있을 경우 즉시 벤치마크를 실행해야 합니다.

이것이 변경 사항이 긍정적인 영향을 미쳤는지 혹은 부정적인 영향을 미쳤는지 확인하는 가장 빠르고 신뢰할 수 있는 방법입니다. 성능 저하가 발견되면 벤치마크 결과를 통해 어떤 쿼리의 성능이 저하되었는지 정확히 알 수 있으므로, 새로운 모호함의 원인을 정확히 찾아내 신속하게 해결할 수 있습니다. 이러한 체계적인 접근 방식을 통해 Genie Space가 성장함에 따라 품질과 신뢰성을 일관되게 높게 유지할 수 있습니다.

구성에서 협업으로

고성능 Genie 스페이스를 구축하는 것은 일회성 구성이 아니라 지속적인 개선의 제품입니다. 전체 데이터 자산을 한 번에 매핑하려고 시도하지 마세요. 대신 특정 영업 대시보드나 운영 보고서와 같은 단일의 고부가가치 사용 사례를 선택하여 이 방법론을 적용하세요.

Start하여 데이터의 깔끔한 슬라이스를 엔지니어링하여, 즉시 "골든" 벤치마크 질문을 설정하세요. 초기 벤치마크의 실패 사례를 메타데이터 및 SQL 로직 구성의 가이드로 활용하세요. 테스트, 구성, 확인이라는 이 반복적인 루프에 집중함으로써 사용자가 신뢰하는 시스템을 구축하게 될 것입니다. 이러한 체계적인 접근 방식은 즉각적인 셀프 서비스 기능을 제공합니다.

워크스페이스에서 Genie 시작하기
https://docs.databricks.com/aws/en/genie/set-up
https://learn.microsoft.com/ko-kr/azure/databricks/genie/set-up
https://docs.databricks.com/gcp/en/genie/set-up

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks