Delta Lake 사용을 시작하는 데 필요한 단계별 가이드를 O'Reilly의 새로운 ebook 미리보기 에서 확인하세요.
Data + AI 온라인 밋업의 일환으로 Regeneron의 게스트와 함께한 유전체학부터 machine learning 파이프라인, GPU 가속 ML, Tableau 성능 최적화에 이르기까지 다양한 주제를 다루었습니다. 핵심 주제 영역 중 하나는 Lakehouse에 대한 탐구였습니다.
레이크하우스 아키텍처 패턴의 등장은 데이터 레이크가 ACID 트랜잭션 및 기존 데이터 웨어하우스 워크로드의 기타 기능을 지원할 수 있게 해주는 기술 혁신을 기반으로 합니다.
Delta Lake 시작하기 기술 강연 시리즈에서는 Delta Lake의 기술 기반(Apache Spark™), 확장성이 뛰어난 데이터 파이프라인 구축, 스트리밍과 배치 워크로드의 통합 처리, Delta Lake 및 MLflow를 사용한 Data Science 지원에 대해 살펴보고, Delta Lake 엔지니어와 함께 개발 비하인드 스토리를 통해 그 기원을 알아봅니다.
Apache Spark는 빅데이터를 위한 주요 처리 프레임워크입니다. Delta Lake는 Spark에 안정성을 더하여 분석 및 머신러닝 이니셔티브가 AWS S3, Azure Storage, Google Cloud Storage와 같은 저비용 클라우드 객체 스토리지에 저장된 고품질의 신뢰할 수 있는 데이터에 즉시 액세스할 수 있도록 합니다. 이 세션에서는 Delta Lake를 사용하여 데이터 레이크의 데이터 안정성을 향상시키는 방법을 알아봅니다.
일반적인 데이터 엔지니어링 파이프라인 아키텍처는 다양한 품질 수준에 해당하는 테이블을 사용하여 데이터에 점진적으로 구조를 추가합니다. 데이터 수집('Bronze' 테이블), 변환/피처 엔지니어링('Silver' 테이블), 집계 테이블/머신 러닝 학습 또는 예측('골드' 테이블) 등이 있습니다. 이 테이블들을 합쳐 "multi-hop" 아키텍처라고 합니다. 이를 통해 데이터 엔지니어는 가공되지 않은 데이터를 모든 것이 흘러나오는 '신뢰할 수 있는 단일 소스'로 삼아 파이프라인을 구축할 수 있습니다. 이번 세션에서는 데이터 엔지니어링 파이프라인 아키텍처, 데이터 엔지니어링 파이프라인 시나리오 및 모범 사례, Delta Lake가 데이터 엔지니어링 파이프라인을 향상시키는 방법, 그리고 Delta Lake를 도입하여 데이터 엔지니어링 파이프라인을 구축하는 것이 얼마나 쉬운지에 대해 알아봅니다.
람다 아키텍처는 배치 시스템과 스트리밍 시스템에서 레코드를 병렬로 처리하는 널리 사용되는 기술입니다. 그런 다음 쿼리 시에 결과가 결합되어 완전한 답변을 제공합니다. Delta Lake의 등장으로 많은 고객이 데이터가 도착하는 대로 처리하기 위해 간단한 연속 데이터 흐름 모델을 채택하고 있습니다. 우리는 이 아키텍처를 “델타 아키텍처”라고 부릅니다. 이 세션에서는 연속 데이터 흐름 모델을 채택할 때의 주요 병목 현상과 델타 아키텍처가 이러한 문제를 해결하는 방법을 다룹니다.
데이터 과학 이니셔티브를 계획할 때는 데이터 분석 영역 전체를 전체적인 관점에서 바라봐야 합니다. 데이터 엔지니어링은 데이터 과학의 핵심 조력자로서, 신뢰할 수 있는 고품질 데이터를 시기적절하게 제공하는 데 도움을 줍니다. 이 세션에서는 데이터 과학 수명 주기, 최신 데이터 엔지니어링의 핵심 원칙, Delta Lake를 통해 분석을 위해 신뢰할 수 있는 데이터를 준비하는 방법, 데이터 레이크를 강화하기 위해 Delta Lake를 쉽게 도입하는 방법, 데이터 인프라 내에 Delta Lake를 통합하여 데이터 과학을 활성화하는 방법을 알아봅니다.
Developer Advocate인 Denny Lee가 Databricks의 소프트웨어 엔지니어인 Burak Yavuz와 인터뷰를 통해 Delta Lake 팀의 의사 결정 과정과 오늘날의 아키텍처를 설계, 구축, 구현한 이유에 대해 알아봅니다. 이번 세션에서는 팀이 직면했던 기술적 인 과제, 이러한 과제를 해결한 방법, 그리고 향후 계획에 대해 알아봅니다.
지금 바로 이 전체 시리즈를 시청하고 Delta Lake를 채워보세요.
Delta Lake에 대한 지식을 넓히고 싶다면 Diving into Delta Lake 기술 강연 시리즈를 시청하세요. Burak Yavuz, Andrea Neumann, Tathagata 'TD' Das, 그리고 개발자 애드버킷인 Denny Lee를 포함한 Delta Lake 엔지니어링 팀의 안내를 통해 Delta Lake의 내부 구현에 대해 배우게 됩니다.
향후 온라인 밋업에 대한 소식을 듣고 싶으시다면 meetup.com에서 Data + AI 온라인 밋업 에 참여하세요.
