배치 처리와 스트림 처리를 결합한 아키텍처로, 정확도를 위한 배치 계층, 실시간 결과를 위한 속도 계층, 그리고 이 둘을 통합하는 서비스 계층으로 구성됩니다.
작성자: Databricks 직원
Lambda 아키텍처는 엄청난 대량의 데이터(즉 “빅데이터”)를 처리하는 방식의 일종으로, 하이브리드 방식으로 일괄 처리나 스트림 처리 방식을 이용할 수 있게 해줍니다. Lambda 아키텍처는 임의 함수 연산 문제를 해결하는 데 쓰입니다. Lambda 아키텍처 자체는 3개의 계층으로 이루어져 있습니다.

새로운 데이터는 데이터 시스템에 일종의 피드 형태로 끊임없이 유입됩니다. 이것을 배치 계층과 속도 계층에 동시에 주입합니다. 그러면 데이터 전체를 한꺼번에 조회하고 결과적으로는 스트림 계층에서 데이터를 수정합니다. 여기에는 ETL이 많고 일반적인 데이터 웨어하우스도 있습니다. 이 계층은 미리 정의한 일정을 사용해(보통 하루에 한두 번) 구축합니다. 배치 계층에는 두 가지 아주 중요한 기능이 있습니다.
배치 계층에서 배치 보기 형식으로 도출한 출력과 속도 계층에서 거의 실시간 보기 형식으로 도출한 출력은 서빙 계층에 전달됩니다. 이 계층은 배치 보기를 인덱싱해 애드혹(ad-hoc) 방식으로, 짧은 레이턴시로 쿼리할 수 있게 해줍니다.
이 계층은 배치 계층의 레이턴시로 인해 이미 배치 보기로 전달되지 못한 데이터를 처리합니다. 또한 이 계층은 최신 데이터만 다루어서 실시간 보기를 생성해 사용자에게 완전한 데이터 보기를 제공합니다.
lambda 아키텍처의 주된 장점은 다음과 같습니다.
Delta Lake: 통합형 배치 및 스트리밍 소스와 싱크
블로그를 구 독하고 최신 게시물을 이메일로 받아보세요.