주요 컨텐츠로 이동

Delta Lakes Tech Talks에서 언급된 ACID 트랜잭션: Tech Talks: Delta Lake 시작하기

Data Intelligence Platforms

Published: November 23, 2020

솔루션Less than a minute

Delta Lake 사용을 시작하는 데 필요한 단계별 가이드를 O'Reilly의 새로운 ebook 미리보기 에서 확인하세요.


Data + AI 온라인 밋업의 일환으로 Regeneron의 게스트와 함께한 유전체학부터 machine learning 파이프라인, GPU 가속 ML, Tableau 성능 최적화에 이르기까지 다양한 주제를 다루었습니다. 핵심 주제 영역 중 하나는 Lakehouse에 대한 탐구였습니다.

레이크하우스 아키텍처 패턴의 등장은 데이터 레이크가 ACID 트랜잭션 및 기존 데이터 웨어하우스 워크로드의 기타 기능을 지원할 수 있게 해주는 기술 혁신을 기반으로 합니다.

Delta Lake 시작하기 기술 강연 시리즈에서는 Delta Lake의 기술 기반(Apache Spark™), 확장성이 뛰어난 데이터 파이프라인 구축, 스트리밍과 배치 워크로드의 통합 처리, Delta Lake 및 MLflow를 사용한 Data Science 지원에 대해 살펴보고, Delta Lake 엔지니어와 함께 개발 비하인드 스토리를 통해 그 기원을 알아봅니다.

그

Delta Lake로 Apache Spark™ 개선

Apache Spark는 빅데이터를 위한 주요 처리 프레임워크입니다. Delta Lake는 Spark에 안정성을 더하여 분석 및 머신러닝 이니셔티브가 AWS S3, Azure Storage, Google Cloud Storage와 같은 저비용 클라우드 객체 스토리지에 저장된 고품질의 신뢰할 수 있는 데이터에 즉시 액세스할 수 있도록 합니다. 이 세션에서는 Delta Lake를 사용하여 데이터 레이크의 데이터 안정성을 향상시키는 방법을 알아봅니다.

데이터 엔지니어링 파이프라인 단순화 및 확장

일반적인 데이터 엔지니어링 파이프라인 아키텍처는 다양한 품질 수준에 해당하는 테이블을 사용하여 데이터에 점진적으로 구조를 추가합니다. 데이터 수집('Bronze' 테이블), 변환/피처 엔지니어링('Silver' 테이블), 집계 테이블/머신 러닝 학습 또는 예측('골드' 테이블) 등이 있습니다. 이 테이블들을 합쳐 "multi-hop" 아키텍처라고 합니다. 이를 통해 데이터 엔지니어는 가공되지 않은 데이터를 모든 것이 흘러나오는 '신뢰할 수 있는 단일 소스'로 삼아 파이프라인을 구축할 수 있습니다. 이번 세션에서는 데이터 엔지니어링 파이프라인 아키텍처, 데이터 엔지니어링 파이프라인 시나리오 및 모범 사례, Delta Lake가 데이터 엔지니어링 파이프라인을 향상시키는 방법, 그리고 Delta Lake를 도입하여 데이터 엔지니어링 파이프라인을 구축하는 것이 얼마나 쉬운지에 대해 알아봅니다.

람다를 넘어서: Delta 아키텍처 소개

람다 아키텍처는 배치 시스템과 스트리밍 시스템에서 레코드를 병렬로 처리하는 널리 사용되는 기술입니다. 그런 다음 쿼리 시에 결과가 결합되어 완전한 답변을 제공합니다. Delta Lake의 등장으로 많은 고객이 데이터가 도착하는 대로 처리하기 위해 간단한 연속 데이터 흐름 모델을 채택하고 있습니다. 우리는 이 아키텍처를 “델타 아키텍처”라고 부릅니다. 이 세션에서는 연속 데이터 흐름 모델을 채택할 때의 주요 병목 현상과 델타 아키텍처가 이러한 문제를 해결하는 방법을 다룹니다.

Delta Lake와 MLflow를 사용하여 데이터 과학을 위한 데이터 준비하기

데이터 과학 이니셔티브를 계획할 때는 데이터 분석 영역 전체를 전체적인 관점에서 바라봐야 합니다. 데이터 엔지니어링은 데이터 과학의 핵심 조력자로서, 신뢰할 수 있는 고품질 데이터를 시기적절하게 제공하는 데 도움을 줍니다.  이 세션에서는 데이터 과학 수명 주기, 최신 데이터 엔지니어링의 핵심 원칙, Delta Lake를 통해 분석을 위해 신뢰할 수 있는 데이터를 준비하는 방법, 데이터 레이크를 강화하기 위해 Delta Lake를 쉽게 도입하는 방법, 데이터 인프라 내에 Delta Lake를 통합하여 데이터 과학을 활성화하는 방법을 알아봅니다.

비하인드 스토리: 델타 레이크의 탄생

Developer Advocate인 Denny Lee가 Databricks의 소프트웨어 엔지니어인 Burak Yavuz와 인터뷰를 통해 Delta Lake 팀의 의사 결정 과정과 오늘날의 아키텍처를 설계, 구축, 구현한 이유에 대해 알아봅니다. 이번 세션에서는 팀이 직면했던 기술적인 과제, 이러한 과제를 해결한 방법, 그리고 향후 계획에 대해 알아봅니다.

시작하기

지금 바로 이 전체 시리즈를 시청하고 Delta Lake를 채워보세요.

다음은 무엇인가요?

Delta Lake에 대한 지식을 넓히고 싶다면 Diving into Delta Lake 기술 강연 시리즈를 시청하세요. Burak Yavuz, Andrea Neumann, Tathagata 'TD' Das, 그리고 개발자 애드버킷인 Denny Lee를 포함한 Delta Lake 엔지니어링 팀의 안내를 통해 Delta Lake의 내부 구현에 대해 배우게 됩니다.

향후 온라인 밋업에 대한 소식을 듣고 싶으시다면 meetup.com에서 Data + AI 온라인 밋업 에 참여하세요.

Delta Lake 심층 분석
더 안정적인 데이터 레이크를 위한 인기 있는 오픈 소스 기술인 Delta Lake의 내부에 대해 자세히 알아보세요.

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks