추출, 로드, 변환이란 무엇인가요? (ELT)
ELT는 추출, 로드, 변환 의 약자로, 클라우드 네이티브 분석 플랫폼을 위해 설계된 최신 데이터 통합 접근 방식입니다. ELT 파이프라인에서는 데이터를 먼저 소스 시스템에서 추출한 다음 중앙 데이터 리포지토리에 직접 로드하고 마지막으로 해당 대상 시스템 내부에서 변환합니다. 이러한 순서 지정은 ELT의 결정적인 특징이며, ELT가 최신 데이터 아키텍처의 기반이 된 핵심적인 이유입니다.
ELT라는 약어는 프로세스의 각 단계를 나타냅니다. 추출 은 운영 데이터베이스, 애플리케이션, APIs 및 기타 소스에서 데이터를 캡처합니다. 로드 는 일반적으로 원시 또는 약간 구조화된 형태의 해당 데이터를 클라우드 데이터 웨어하우스 또는 데이터 레이크에 기록합니다. 변환 은 데이터가 이미 저장되어 분석을 위해 액세스할 수 있게 된 후에 비즈니스 로직, 정리, 집계, 보강을 적용합니다.
이 접근 방식은 데이터가 로드되기 전에 변환이 발생하는 기존의 추출, 변환, 로드(ETL) 파이프라인과 다릅니다. 해당 모델에 대한 기초적인 개요를 원하는 독자는 추출, 변환, 로드(ETL)를 살펴볼 수 있습니다.
자세히 보기
ELT는 클라우드 네이티브 데이터 아키텍처 및 최신 데이터 스택과 밀접하게 관련되어 있습니다. 클라우드 플랫폼은 저렴한 스토리지와 탄력적인 컴퓨팅을 제공하여 가공되지 않은 데이터를 보관하고 필요에 따라 변환을 수행하는 것을 실용적으로 만듭니다. 결과적으로 ELT는 데이터에 대한 빠른 액세스, 모델링의 유연성, 고급 분석 및 AI 워크로드에 대한 지원이 필요한 데이터 엔지니어, 애널리스트, 데이터 사이언티스트들이 널리 사용합니다.
역사적으로 ELT는 클라우드 데이터 웨어하우스가 대규모의 웨어하우스 내 변환을 처리할 만큼 강력해지면서 새로운 기술 현실에 맞춰 데이터 통합 패턴이 변화함에 따라 등장했습니다.
ELT가 현대적인 접근 방식으로 등장한 이유
ELT는 조직이 데이터를 저장, 처리, 분석하는 방식의 변화에 대한 직접적인 대응으로 등장했습니다. 수년 동안 추출, 변환, 로드(ETL)는 레거시 온프레미스 데이터 웨어하우스의 제약 조건과 일치했기 때문에 지배적인 통합 패턴이었습니다. compute 리소스는 제한적이었고, 스토리지는 비쌌으며, 분석을 위해 데이터를 로드하기 전에 변환을 신중하게 최적화해야 했습니다.
조직이 데이터 스택을 현대화하기 시작하면서 그 모델은 무너지기 시작했습니다. 클라우드 네이티브 아키텍처는 ETL이 해결하도록 설계된 많은 제약을 없애고 속도, 유연성, 비용과 관련하여 새로운 트레이드오프를 도입했습니다. 이 두 접근 방식이 어떻게 다른지에 대한 자세한 비교 설명(각각이 언제 적합한지 포함)은 ETL vs. ELT를 참조하세요.
이러한 변화의 주요 동인은 Databricks, BigQuery, Amazon Redshift와 같은 클라우드 데이터 웨어하우스의 등장이었습니다. 이러한 플랫폼은 기존 시스템의 역량을 훨씬 뛰어 넘는 탄력적이고 대규모 병렬 compute를 제공합니다. 별도의 변환 계층에 의존하는 대신, 이제 조직은 웨어하우스 내에서 직접 복잡한 변환을 수행할 수 있습니다.
동시에 스토리지 경제성이 극적으로 변했습니다. 클라우드 객체 스토리지를 사용하면 대량의 원시 데이터와 기록 데이터를 저렴한 비용으로 보관할 수 있게 되었습니다. 파이프라인 초반에 데이터를 변환하고 폐기하는 대신, 팀은 데이터를 원본 형태로 로드하여 향후 분석, 재처리, machine learning 사용 사례를 위해 보존할 수 있게 되었습니다.
더 강력하고 유연한 컴퓨팅 리소스가 이러한 전환을 더욱 강화했습니다. 대상 시스템 내부에서 변환이 실행되기 때문에 팀은 수집 파이프라인을 재구축할 필요 없이 비즈니스 로직을 반복하고 과거 데이터를 다시 변환하며 변화하는 요구 사항에 적응할 수 있습니다.
이러한 요소들이 결합되어 대규모 ELT를 실용적이고 비용 효율적으로 만들었습니다. 클라우드 플랫폼이 최신 데이터 아키텍처의 기반이 되면서, ELT는 단순한 트렌드가 아니라 클라우드 네이티브 환경에서 데이터 통합이 자연스럽게 발전한 형태로 등장했습니다.
ELT 프로세스의 작동 방식: 3단계 ELT 워크플로
개괄적으로 ELT 파이프라인은 추출, 로드, 변환이라는 세 가지 개별 단계를 순서대로 따릅니다. 이 단계는 대부분의 데이터 전문가에게 익숙하지만, ELT는 변환이 발생하는 위치와 시점을 변경합니다. ELT는 데이터가 분석 플랫폼에 도달하기 전에 데이터를 준비하는 대신 빠른 수집 을 우선시하며, 데이터가 이미 저장되어 액세스할 수 있을 때까지 변환을 연기합니다.


