주요 컨텐츠로 이동
공지사항

Databricks 분석 엔지니어 학습 경로 발표

Databricks에서 데이터 모델링, 파이프라인 구축, 메트릭 정의 및 Genie 공간 배포 방법을 SQL 실무자에게 가르치는 새로운 경로

작성자: Maroua Lazzarou , Pratyarth Rao

  • 안정적인 분석 및 AI는 잘 구축된 데이터 기반에 달려 있으며, SQL 실무자는 이를 지원하는 파이프라인, 모델 및 메트릭을 구축하는 사람입니다.
  • SQL 실무자를 위한 새로운 학습 경로는 Databricks에서 전체 SQL ETL 도구 키트를 사용하는 기술을 다룹니다. 여기에는 데이터 모델링, 경량 변환 또는 거버넌스 엔드투엔드 워크플로를 위한 선언적 SQL 파이프라인, 일관된 의미 계층 및 대화형 에이전트가 포함됩니다.
  • Databricks Academy에서 지금 바로 수강할 수 있으며, 자체 학습 및 강사 주도 형식으로 제공되므로 오늘부터 학습을 시작할 수 있습니다. 활성 Databricks 학습 구독이 있는 경우에도 포함됩니다.

오늘, 새로운 Databricks 분석 엔지니어 학습 경로를 출시합니다. 이 커리큘럼은 원시 데이터를 거버넌스되고 AI 준비가 된 의미론적 모델 메트릭 뷰로 변환하는 방법을 가르쳐주며, 이는 레이크하우스에서 분석, 대시보드 및 AI 에이전트를 지원하는 신뢰할 수 있는 기반입니다. 이 경로는 팀이 의존하는 데이터에 대한 더 많은 책임을 맡을 준비가 된 SQL 실무자를 위해 만들어졌습니다.

learning pathway analytics engineer

분석 엔지니어링이 필수적인 이유

SQL은 항상 현대 분석의 기반이었습니다. 하지만 그 위에 구축되는 작업은 모델링, 파이프라인, 메트릭, 그리고 이제 에이전트와 대시보드가 의존하는 데이터 계층으로 확장되고 있습니다.

안정적인 분석과 AI는 동일한 기반, 즉 거버넌스되고 모델링되며 신뢰할 수 있는 데이터 위에서 실행됩니다. 이 기반을 구축하는 것은 과거보다 더 어렵습니다. 데이터는 더 많은 소스에 분산되어 있으며 더 많은 다운스트림 소비자로 공급됩니다. 전통적으로 데이터를 준비하는 책임을 맡았던 데이터 팀은 이미 역량이 부족합니다. 최근 Economist Enterprise 보고서에 따르면, 거의 3분의 2의 조직이 파이프라인 생성의 모든 측면에서 데이터 엔지니어에게 전적으로 의존하고 있으며, 이들 엔지니어의 거의 절반이 대부분의 시간을 데이터 소스 연결 설정 및 수정에만 소비하고 있습니다. 새로운 작업을 처리할 수 있는 용량이 제한적입니다. 점점 더 많은 작업이 비즈니스에 가장 가까운 실무자, 즉 SQL을 다루는 사람들에게 맡겨지고 있습니다.

SQL 실무자는 비즈니스에 더 가깝게 위치하며 질문 내용, 해당 데이터, 그리고 팀이 중요하게 생각하는 메트릭을 이해합니다. 분석 엔지니어링은 이러한 컨텍스트를 사용하여 비즈니스가 신뢰할 수 있는 모델, 파이프라인 및 메트릭을 구축하는 학문입니다. 이 작업을 위한 도구는 이제 SQL 네이티브입니다. 이를 잘 활용하는 판단력은 이 경로에서 가르치는 것입니다.

경로 살펴보기

분석 엔지니어 경로는 Databricks에서 전체 SQL ETL 도구 키트를 다루는 실습 과정으로 구성됩니다. 레이크하우스에서 분석이 어떻게 작동하는지에 대한 기초를 다지기 위해 분석 기초부터 시작하세요. 그 후, 나머지 커리큘럼은 Databricks 전문가가 가르치고 실습 예제를 중심으로 구축된 분석 엔지니어링 기술 세트의 각 부분에 대해 더 깊이 다룹니다.

1. 분석 기초: Databricks에서의 분석 작동 방식: 통합 의미론, AI/BI 대시보드 및 Genie에 대해 알아보세요. 1시간 분량의 기초 과정입니다.

2. 데이터 모델링 전략: 레이크하우스에서 프로덕션 환경에 적합한 데이터 모델을 설계하는 방법을 알아보세요.

  • 비즈니스 요구 사항에 맞춰 데이터 구성 및 모델 설계를 조정합니다.
  • Delta Lake 및 Unity Catalog를 사용하여 데이터 아키텍처를 정의합니다.
  • 레이크하우스의 데이터 제품 수명 주기를 이해합니다.
  • 데이터 통합 및 공유를 위한 기술을 적용합니다.

3. SQL로 ETL 파이프라인 구축: Materialized Views, Streaming Tables 및 Lakeflow Jobs를 사용하여 프로덕션 SQL ETL 파이프라인을 구축하는 방법을 알아보세요.

  • 선언적 파이프라인을 위해 Streaming Tables, Materialized Views 및 AUTO CDC를 활용합니다.
  • Medallion 아키텍처 전반에 걸쳐 증분 수집 및 변환을 구현합니다.
  • AUTO CDC를 사용하여 SCD 유형 1 및 유형 2를 처리합니다.
  • Lakeflow Jobs 및 SQL 기반 워크플로를 사용하여 파이프라인을 조정합니다.

4. UC Metric Views로 의미론적 모델 구축: SQL에서 비즈니스 메트릭을 정의하고 거버넌스한 다음, 소비되는 모든 곳에서 신뢰할 수 있는 숫자를 노출하는 방법을 알아보세요.

  • Unity Catalog에서 메트릭 뷰를 정의하고 관리합니다.
  • 창 함수 및 반가산 측정값을 포함한 고급 메트릭을 모델링합니다.
  • Databricks 대시보드, Genie 공간 및 SQL 워크플로와 통합합니다.
  • 거버넌스, 보안 및 유지 관리 관행을 적용합니다.

5. Genie로 신뢰할 수 있는 대화형 에이전트 구축: 비즈니스 사용자가 신뢰할 수 있는 Genie 공간을 설계, 배포 및 지속적으로 개선하는 방법을 알아보세요.

  • Unity Catalog 테이블, SQL 웨어하우스 및 벤치마크로 Genie 공간을 구성합니다.
  • 동의어, 설명 및 프롬프트 일치 기능을 사용하여 지식 저장소를 큐레이션합니다.
  • 파생 표현식, 조인 및 지침을 사용하여 SQL로 비즈니스 로직을 인코딩합니다.
  • Unity Catalog 권한 및 ABAC 정책으로 액세스를 거버넌스합니다.
  • 벤치마크, 사용자 피드백 및 관찰된 출력을 사용하여 반복합니다.

6. Spark 선언적 파이프라인으로 파이프라인 구축: Spark 선언적 파이프라인 편집기를 사용하여 거버넌스된 종단 간 SQL 파이프라인을 구축하는 방법을 알아보세요.

  • 스트리밍 테이블, Materialized Views 및 임시 뷰를 이해합니다.
  • 내장된 예상치를 사용하여 데이터 품질을 적용합니다.
  • AUTO CDC INTO를 사용하여 느리게 변경되는 차원을 처리합니다.
  • 이벤트 로그 및 메트릭을 통해 파이프라인 실행을 분석합니다.

모든 과정은 자체 학습 및 강사 주도 형식으로 제공됩니다. 전체 경로는 활성 Databricks 학습 구독으로도 포함됩니다.

지금 여정을 시작하세요

분석 엔지니어 학습 경로는 현재 Databricks Academy에서 이용할 수 있습니다. 완료 시 원시 데이터를 모델링하고, 파이프라인을 배포하며, 대시보드와 AI를 모두 지원하는 메트릭을 정의하게 될 것입니다.

팀을 이끌고 있다면, 이 경로는 비즈니스 사용자가 의사 결정을 내리는 데 의존하는 인사이트를 팀이 제공하도록 하는 가장 빠른 방법이기도 합니다.

지금 바로 분석 기초로 탐색을 시작하고, Databricks Academy를 방문하여 나머지 경로에 대한 기술을 계속 구축하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.