일 괄 업로드, API, 스트리밍 또는 변경 데이터 캡처를 통해 다양한 소스의 데이터를 수집하고 스토리지 또는 처리 시스템으로 가져옵니다.
작성자: Databricks 직원
데이터 인제스트(data ingestion)는 데이터 엔지니어링 라이프사이클의 첫 단계로, 데이터베이스, SaaS 애플리케이션, 파일 소스, API, IoT 기기 등 다양한 출처의 데이터를 데이터 레이크, 데이터 웨어하우스, 레이크하우스 같은 중앙 저장소로 모으는 과정을 말합니다. 이를 통해 조직은 데이터를 정제하고 통합하여 분석과 AI에 활용함으로써 데이터 기반 의사결정을 내릴 수 있습니다.
전통적으로 데이터 인제스트는 맞춤형 스크립트, Apache NiFi나 Kafka 같은 오픈 소스 프레임워크, AWS Glue, Google Cloud Dataflow, Azure Data Factory 등 클라우드 제공업체의 관리형 인제스트 솔루션을 조합해 처리해 왔습니다. 그러나 스키마 변화 대응, 데이터 일관성 유지, 대규모 실시간 처리와 같은 요구가 커질수록 유지보수에 상당한 엔지니어링 노력이 필요했습니다. 많은 기업이 인제스트, 변환, 오케스트레이션 도구를 각각 별도로 운영하기 때문에 복잡성이 커지고 데이터 사일로가 생기기도 합니다.
또한 ETL(extract, transform, load)이 적재 전에 데이터를 변환하는 것과 달리, 데이터 인제스트는 원시(raw) 데이터를 목적지로 직접 이동시키므로 더 빠르게 접근할 수 있고 활용 방식에도 유연합니다.
데이 터 인제스트 방식은 사용 사례에 따라 달라지며, 예약된 배치 수집, 지속적 스트리밍 수집, 두 방식을 결합한 하이브리드 수집으로 나눌 수 있습니다.
서로 다른 데이터 구조는 각각에 맞는 인제스트(수집)·처리 기법이 필요합니다.
데이터 인제스트 도구는 유연성과 커스터마이징에 강한 오픈 소스인 Apache NiFi와 Kafka부터, 인제스트, 변환, 오케스트레이션을 하나로 묶은 상용 플랫폼인 데이터브릭스 데이터 인텔리전스 플랫폼(Data Intelligence Platform)까지 폭넓게 존재합니다.
레이크 플로우(akeflow)는 데이터 인텔리전스 플랫폼 위에 구축된 통합형 지능적 데이터 엔지니어링 솔루션으로, 데이터 인제스트부터 변환, 오케스트레이션까지 전체 파이프라인을 포괄합니다. 이 중 레이크플로우 콘텐츠는 다양한 데이터 소스를 위한 커넥터를 제공하여, 엔터프라이즈 애플리케이션·파일 소스·데이터베이스 등에서 구조화/비정형 데이터를 유연하고 손쉽고 효율적으로 인제스트할 수 있게 합니다.
레이크플로우 콘텐츠로 인제스트할 수 있는 소스 유형:
효율적인 인제스트 도구는 다음과 같은 기능으로 데이터 처리를 간소화합니다:
오픈 소스 도구는 유연성과 통제력이 뛰어나지만 초기 설정과 운영에 더 많은 노력이 필요해 기술 중심의 팀에 적합합니다. 데이터브릭스는 오픈 소스 기반에 폭넓은 파트너 생태계를 결합하며, 데이터브릭스 데이터 인텔리전스 플랫폼은 내장형 관리 기능과 자동화를 갖춘 관리형 인제스트를 제공해 운영 비용과 복잡성을 줄여 줍니다.
데이터 인제스트는 수집부터 분석에 이르는 데이터 처리 여정의 첫 단계로, 여러 출처에서 발생한 원시 데이터를 데이터 레이크나 데이터 웨어하우스, 레이크하우스 같은 중앙 저장소로 옮기는 역할을 합니다. 인제스트의 핵심 목적은 다양한 소스에서 원본 형태의 데이터를 빠르게 모아 대상 저장소로 전달하는 데 있으며, 이렇게 모인 데이터는 이후 정제와 통합 과정을 거쳐 분석과 의사결정에 활용됩니다. 인제스트는 데이터 형식을 바꾸지 않은 채 고속으로 데이터를 받아들이고 유연한 접근성을 제공함으로써, 다음 단계의 처리를 가능하게 합니다.
데이터 인제스트는 변환 없이 여러 소스의 원시 데이터를 저장소로 가져와 즉시 접근할 수 있게 하는 데 초점을 둡니다.
ETL은 데이터를 추출한 뒤 요구사항에 맞게 변환하고 대상 시스템에 적재하는 과정으로, 분석과 리포팅을 위한 데이터 준비에 방점을 둡니다. (ETL과 ELT의 차이는 별도로 자세히 다룰 수 있습니다.)
데이터 파이프라인은 인제스트와 ETL을 포함해, 그 이후에 이어지는 일련의 처리 단계를 모두 아우르는 개념입니다. 유효성 검사, 중복 제거, 머신러닝 알고리즘 실행, 스트리밍 데이터 처리 등 여러 연속 작업이 하나의 흐름으로 구성됩니다.
데이터 인제스트는 원시 데이터에 신속히 접근해야 하거나 준실시간 인사이트가 필요한 경우에 적합합니다. ETL 은 표준화된 리포팅처럼 구조화되고 준비된 데이터가 필요한 비즈니스 인텔리전스와 분석 시나리오에 알맞습니다. 데이터 파이프라인은 복잡한 워크플로를 하나로 엮어 처리해야 할 때 유용하며, 다양한 단계를 통합해 일관된 프로세스를 제공합니다.
현대 아키텍처에서는 데이터 인제스트와 ETL이 상호 보완적으로 작동합니다. 예를 들어 데이터는 먼저 레이크하우스에 인제스트되고, 이후 ETL이 이를 더 깊은 분석과 리포팅에 적합하도록 준비합니다. 더 넓은 의미의 데이터 파이프라인은 인제스트부터 머신러닝과 분석에 이르는 전 과정을 자동화합니다. 데이터브릭스 레이크플로우(Lakeflow)는 이러한 과정을 통합해 유연하면서도 포괄적인 데이터 관리 워크플로를 제공합니다.
기본 원칙을 먼저 정립하면 인제스트 워크플로가 효율적이고 신뢰할 수 있으며 거버넌스에 부합하도록 운영할 수 있습니다.
프로세스가 자리 잡은 뒤에는 변화하는 비즈니스 요구와 증가하는 데이터 볼륨에 맞춰 지속적으로 개선합니다.
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.