주요 컨텐츠로 이동

한국 최초 데이터 + AI 러닝 페스티벌: AI를 위한 데이터 마이그레이션 by Databricks

2 people work on Databricks Data + AI Learning Day

Published: September 23, 2025

이벤트1분 이내 소요

작성자: Young Shin

기업 내에서의 전반적 생성형 AI(GenAI) 도입 트렌드 및 당면 과제는 무엇일까요?

최근 구글, 마이크로소프트를 비롯한 유수의 글로벌 빅테크 기업들이 생성형 AI(GenAI)를 비즈니스 전반에 도입하면서, 기업들은 단순한 데이터 분석을 넘어 AI 활용 기반의 경쟁력을 요구받고 있습니다. 하지만 많은 조직들이 여전히 기존 EDW(엔터프라이즈 데이터 웨어하우스)나 레거시 시스템에 의존하고 있어, 방대한 데이터를 AI 친화적인 환경으로 옮기고 활용하는 과정에서 어려움을 겪고 있습니다. 이러한 상황을 해결하기 위해, 특히 데이터 마이그레이션과 실시간 데이터 처리는 AI 혁신을 위한 핵심 과제입니다. 

  1. 정돈되지 않은 데이터는 AI 모델의 정확도를 떨어뜨립니다.

    AI 모델은 결국 데이터를 기반으로 학습하고 예측을 수행합니다. 그런데 데이터 안에 오류가 많거나 형식이 제각각이고 필요한 정보가 빠져 있거나 중복된다면, 모델은 올바른 패턴을 학습하기 어렵습니다. 따라서 데이터를 표준화하고, 일관된 구조로 정리하며, 노이즈를 줄이는 과정이 필수적입니다. 이것이 바로 데이터 품질 관리(Data Quality Management)가 중요한 이유입니다.
     
  2. 실시간 파이프라인이 없는 환경에서는 시장 변화에 기민하게 대응하기 어렵습니다.

    오늘날 비즈니스 환경은 매우 빠르게 변합니다. 예를 들어 이커머스 기업은 고객의 클릭과 구매 데이터를 실시간으로 분석해 프로모션이나 추천 상품을 즉시 조정해야 합니다. 금융 기업은 거래 데이터를 실시간으로 감지해 이상 패턴이나 사기 행위를 즉각 차단해야 합니다. 만약 데이터를 하루나 일주일 뒤에야 모아서 분석한다면 이미 매출이 발생할 수 있는 중요한 기회를 놓치거나, 예기치 못한 손실이 발생할 수 있습니다. 그래서 데이터를 생성되는 즉시 수집·처리할 수 있는 실시간 데이터 파이프라인(Real-time Data Pipeline)이 중요합니다.

따라서 생성형 AI 애플리케이션을 실제로 운영하기 위해서는 데이터 인프라 혁신이 반드시 필요합니다. 바로 이런 맥락에서 이번 데이터 + AI 러닝 페스티벌은 단순한 교육이 아닌 시장 트렌드와 기업의 실질적 니즈를 반영한 프로그램으로 구성되었습니다. Databricks 전문가와 함께하는 이번 온라인 세션에서는 데이터 엔지니어링 입문부터 Lakeflow Connect를 활용한 데이터 수집까지, AI 시대에 꼭 필요한 데이터 기반 역량을 강화할 수 있습니다.

더 나아가 실제 기업들이 어떻게 데이터 마이그레이션을 성공적으로 진행하고, 실시간 스트리밍 및 생성형 AI를 비즈니스 현장에 적용했는지 생생한 고객 사례도 공유됩니다. 이는 참가자들이 단순히 기술을 배우는 데서 그치지 않고, 자사 환경에 맞는 전략적 인사이트까지 얻을 수 있습니다. 또한,  전문가와의 실시간 QnA 채팅으로 궁금한 부분까지 즉각적으로 해결할 수 있습니다.  

한국 최초 데이터 + AI 러닝 페스티벌에 참가해야 하는 이유

  • 전문성 향상: 업계 전문가들이 온라인으로 제공하는 실습 교육과 모범 사례를 직접 배울 수 있습니다.
  • 경력 개발: 최신 데이터브릭스 기술을 온라인으로 습득하고 인증을 통해 커리어를 강화할 수 있습니다.
  • 실질적인 문제 해결: 실시간 온라인 교육을 통해 실제 적용 가능한 배포 전략과 아키텍처를 배울 수 있습니다.

실습 핸즈온랩 포함, 전문가와 실시간 소통하며 배우는 주요 세션 소개

  • 세션 1 (오전 9시 - 12시): 데이터브릭스를 활용한 데이터 엔지니어링 시작하기

    데이터 엔지니어링 기초부터 워크플로우 자동화까지: 데이터브릭스 데이터 인텔리전스 플랫폼 과정 소개 

    이번 세션에서는 데이터 인텔리전스 플랫폼을 활용해 데이터 엔지니어링의 기본기를 다지고, 데이터 웨어하우징을 효과적으로 지원할 수 있는 핵심 기술을 학습합니다.

    워크스페이스 전반을 둘러보며 Databricks의 주요 개체들을 실습합니다. 카탈로그, 스키마, 볼륨, 테이블, 컴퓨팅 클러스터, 그리고 Notebooks까지 각각이 데이터 관리와 데이터 분석 환경에서 어떤 역할을 하는지 직접 다뤄볼 수 있습니다.

    이후 단계에서는 테이블 생성 및 관리, 델타레이크(Delta Lake)를 통한 데이터 수집, 메달리온 아키텍처(Medallion Architecture)를 활용한 데이터 변환, 데이터브릭스 워크플로우로 데이터 엔지니어링 자동화 및 오케스트레이션까지, 기본 데이터 엔지니어링 워크플로우를 중심으로 실습이 진행됩니다.

    또한 Databricks SQL, Lakeflow 선언적 파이프라인, Unity Catalog와 같은 기능이 데이터 웨어하우징 요구사항을 어떻게 충족시키는지 다룹니다. 이를 통해 단순한 데이터 적재를 넘어 효율적으로 확장 가능한 데이터 웨어하우스 아키텍처를 설계할 수 있는 안목을 키울 수 있습니다.

    마지막으로 Databricks Labs 구독을 통해 제공되는 실습 환경에서 지금까지 배운 내용을 직접 실험하고 검증할 수 있습니다. 실제 데이터브릭스 워크스페이스에서 진행되는 이 실습은 이론을 넘어 현업 적용력을 강화하는 종합 학습 경험으로 이어집니다.
     
  • 세션 2 (오후 1시 - 4시): $750 상당의 실습 핸즈온랩 포함, Lakeflow Connect를 통한 데이터 수집 

    Lakeflow Connect로 확장 가능한 데이터 수집 배우기

    이번 세션에서는 Databricks Lakeflow Connect를 활용해 다양한 소스에서 데이터를 효율적으로 수집하는 방법을 포괄적으로 다룹니다. Lakeflow Connect는 확장 가능하고 간소화된 데이터 수집 솔루션으로, 데이터 엔지니어링과 웨어하우징의 기반을 강화하는 핵심 도구입니다.
     
    1. Lakeflow Connect 소개 및 기본 개념

      먼저, 표준 커넥터와 관리형 커넥터를 포함한 Lakeflow Connect의 다양한 유형을 살펴봅니다. 이를 통해 배치, 증분 배치, 스트리밍 수집 등 여러 가지 데이터 수집 방식의 특징과 적용 사례를 이해할 수 있습니다. 이 과정에서는 특히 델타테이블과 메달리온 아키텍처를 활용했을 때 얻을 수 있는 주요 이점을 함께 확인합니다.
       
    2. 표준 커넥터 활용 실습

      다음으로, 클라우드 객체 스토리지에서 데이터를 수집하기 위한 실무 기술을 학습합니다.

      • CREATE TABLE AS SELECT (CTAS)
      • COPY INTO
      • Auto Loader

      세 가지 방법을 활용하면서 각각의 장점과 고려사항을 비교 및 분석합니다. 또한, 브론즈(Bronze) 레벨 테이블에 메타데이터 컬럼을 추가하는 방법을 실습하고, 스키마와 일치하지 않는 레코드를 처리하기 위한 전략도 다룹니다. 여기에 더해 반정형 JSON 데이터를 수집하고 평탄화하는 기술도 배울 수 있습니다.

    3. 관리형 커넥터와 Partner Connect

      이후에는 관리형 커넥터를 사용하여 데이터베이스 및 SaaS 애플리케이션에서 엔터프라이즈급 데이터 수집을 수행하는 방법을 알아봅니다. 아울러 파트너 도구를 수집 워크플로우에 통합할 수 있는 Partner Connect 옵션도 함께 소개합니다.
       
    4. 최신 데이터 엔지니어링을 위한 확장 전략

      마지막으로, MERGE INTO 작업과 Databricks Marketplace 활용을 포함한 대체 수집 전략을 살펴봄으로써 최신 데이터 엔지니어링 사용 사례를 지원할 수 있는 실질적이고 강력한 기반을 마련합니다.

이번 데이터 + AI 러닝 페스티벌은 물리적 제약 없이 누구나 참여할 수 있는 실시간 온라인 교육입니다. 데이터와 AI의 최신 흐름을 배우고, 실제 고객 사례에서 인사이트를 얻으며, 비즈니스 혁신의 기회를 발견하세요!

행사

데이터 + AI 러닝 페스티벌: AI를 위한 데이터 마이그레이션 by Databricks 

날짜

2025년 10월 22일 수요일

시간

  • 세션 1 (오전 9시 - 오후 12시): Databricks를 활용한 데이터 엔지니어링 시작하기
  • 세션 2 (오후 1시 - 오후 4시): $750 상당의 실습 핸즈온랩을 포함한 Lakeflow Connect를 통한 데이터 수집

장소

온라인 세션

신청

무료 사전 등록

 

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요