데이터베이스, API, 클라우드 서비스 및 기존 시스템 등 서로 다른 소스의 데이터를 결합하여 분석 및 운영을 위한 통합되고 일관된 데이터 세트를 생성합니다.
작성자: Databricks 직원
데이터 통합은 여러 시스템의 데이터를 결합하여 통합되고 신뢰할 수 있는 뷰로 만드는 프로세스입니다. 데이터베이스, 애플리케이션, 이벤트 스트림, 파일, API, 타사 플랫폼의 정보를 통합하여 조직이 데이터를 단편적으로 분리된 상태가 아니라 전체적으로 다룰 수 있도록 합니다. 데이터 볼륨이 증가하고 시스템이 더욱 파편화됨에 따라 데이터 통합은 분석, AI 및 의사 결정을 위한 기본 기능이 되었습니다.
대부분의 조직은 필수 정보를 생성하는 많은 시스템에 의존합니다. CRM 플랫폼은 고객 상호작용을 저장하고, ERP 시스템은 금융 거래를 관리하며, 마케팅 도구는 디지털 참여를 추적하고, 지원 애플리케이션은 서비스 문제를 기록합니다. 통합이 없으면 이 정보는 사일로에 머물게 되어 신뢰도를 낮추고 의사 결정을 늦추며 비즈니스 전반에서 일어나는 일에 대한 가시성을 제한합니다.
최신 통합 방식은 데이터 수집, 변환, 통합을 위한 거버넌스가 적용된 중앙 집중식 파이프라인을 구축하여 이러한 문제를 해결합니다. 그 결과, 여러 팀이 보고, 비즈니스 인텔리전스, machine learning, 실시간 애플리케이션 전반에서 확신을 갖고 사용할 수 있는 일관된 데이터세트가 생성됩니다.
데이터 수집 은 통합의 진입점입니다. 소스 시스템에서 데이터를 캡처하여 데이터 레이크, 데이터 웨어하우스 또는 lakehouse와 같은 중앙 환경으로 이동시키는 데 중점을 둡니다. 여기에는 관계형 데이터베이스, SaaS 애플리케이션, IoT 디바이스, 메시지 큐, 로그 파일 또는 파트너 시스템에서 데이터를 가져오는 작업이 포함될 수 있습니다.
강력한 수집 레이어는 대용량, 이기종 형식, 진화하는 스키마를 지원하고 소스가 변동하거나 증가할 때 파이프라인 복원력을 유지하여 통합의 확장성과 안정성을 보장합니다.
많은 조직에서는 수집을 효율적이고 반응적으로 유지하기 위해 커넥터, 변경 데이터 캡처(CDC) 패턴 및 이벤트 기반 파이프라인을 사용합니다. Databricks Lakeflow의 일부인 Lakeflow Connect와 같은 도구는 운영 데이터베이스 및 SaaS 애플리케이션에서 데이터 수집을 간소화하는 사전 구축된 고성능 커넥터를 제공하여 이 작업을 간소화하는 데 도움이 됩니다.
수집은 일반적으로 지연 시간 및 최신성 요구사항에 따라 두 가지 모드 중 하나로 작동합니다.
조직에서는 성능과 분석 요구 사항의 균형을 맞추기 위해 두 가지 모드를 모두 사용하는 경우가 많습니다. 실시간 파이프라인은 즉각적인 인사이트를 제공하는 반면, 배치 작업은 대량의 기록 데이터를 효율적으로 새로 고칩니다.
최신 환경은 분산형, 클라우드 네이티브 및 하이브리드 시스템에 의존하므로 통합을 통해 다음과 같은 매우 다양한 소스를 효율적으로 처리해야 합니다.
통합 파이프라인은 비즈니스 운영에 대한 전체적인 그림을 유지하기 위해 이러한 다양한 형식과 프로토콜을 효율적으로 처리해야 합니다.
데이터가 수집되면 분석을 위해 준비해야 합니다. 가공되지 않은 데이터는 종종 형식, 구조, 품질에 불일치가 있는 상태로 도착하므로 다운스트림에서 사용하기 전에 정리 및 표준화 해야 합니다. 이러한 단계를 통해 분석 및 머신러닝 워크로드 전반에서 결과 데이터세트의 일관성과 안정성을 보장합니다.
데이터 정리 및 유효성 검사는 변환 프로세스의 핵심 부분입니다. 정제는 중복 레코드, 잘못된 데이터 유형, 일관성 없는 서식, 누락된 값, 잘못된 입력을 나타낼 수 있는 이상치와 같은 문제를 해결하여 안정성을 향상시킵니다.
그런 다음 유효성 검사를 통해 소스 시스템이 발전함에 따라 변환된 데이터가 정확성을 유지하는지 확인합니다. 자동화된 검사는 스키마 드리프트, 예기치 않은 null 또는 필드 동작의 변화와 같은 문제가 다운스트림 프로세스에 영향을 미치기 전에 표면으로 드러냅니다.
데이터 표준화는 여러 다른 시스템의 정보가 공유된 구조 및 정의 집합에 맞춰지도록 보장합니다. 이 작업에는 스키마 요소 통합, 레코드 레이아웃 표준화, 명명 규칙 조정, 다운스트림 분석 및 머신 러닝 모델이 안정적으로 작동할 수 있도록 값을 일관되고 해석 가능한 형식으로 변환하는 작업이 포함됩니다.
로딩은 통합 프로세스의 마지막 단계로, 변환된 데이터를 분석 및 애플리케이션용 스토리지 환경으로 이동시키는 과정입니다. 정제 및 표준화 후에는 팀이 데이터를 쉽게 쿼리하고 적용할 수 있는 곳에 저장해야 합니다. 스토리지 아키텍처는 확장성, 성능, 다운스트림 사용성에 직접적인 영향을 미치며 각 옵션은 통합 프로세스 내에서 다양한 요구 사항에 맞춰집니다.
데이터 웨어하우스는 대규모 비즈니스 인텔리 전스 및 정형 분석을 지원합니다. SQL 쿼리, 대시보드 및 규정 준수 기반 보고에 최적화되고 일관되며 선별된 데이터를 저장합니다. 웨어하우스는 안정적인 스키마와 잘 관리되는 데이터세트에 의존하는 워크로드에 이상적입니다.
데이터 레이크는 원시, 반정형, 비정형 데이터를 더 저렴한 비용으로 저장하여 유연한 탐색, 대규모 분석, machine learning을 지원합니다. 이를 통해 조직은 정형화된 레코드뿐만 아니라 모든 엔터프라이즈 데이터를 캡처하고 다운스트림 변환에 사용할 수 있습니다.
이러한 환경의 설계 및 관리에 대한 지침은 포괄적인 Databricks 데이터 레이크 모범 사례 가이드를 참조하세요.
레이크하우스 아키텍처 는 데이터 레이크와 웨어하우스의 장점을 모두 통합합니다. 저비용 객체 스토리지를 SQL 워크로드를 위한 성능 최적화와 결합하여 조직이 단일 환경에서 분석 및 AI 파이프라인을 통합할 수 있도록 합니다. 인프라 중복을 줄임으로써 레이크하우스는 거버넌스를 단순화하고 데이터 기반 이니셔티브를 가속화합니다.
고객 관련 데이터가 여러 부서에 분산되어 있는 조직을 생각해 보세요. 영업은 CRM 시스템에서 계정과 파이프라인을 관리합니다. 마케팅 부서는 마케팅 자동화 도구를 사용하여 사용자 참여도와 캠페인 성과를 추적합니다. 지원 부서는 헬프데스크 플랫폼에 티켓과 고객 상호 작용을 기록합니다.
통합이 없으면 이러한 시스템은 고객 행동에 대한 부분적인 뷰만 제공하므로 더 광범위한 패턴이나 성과를 평가하기가 어렵습니다. 애널리스트는 서로 충돌하거나 불완전한 기록을 수동으로 조정해야 하므로 부정확한 결론이 나올 가능성이 높아집니다.
통합된 파이프라인을 사용하면 팀은 이 데이터를 더 효과적으로 취합할 수 있습니다.
이처럼 여러 부서의 데이터가 통합되면 팀은 어떤 마케팅 캠페인이 영업 기회에 영향을 미치는지, 지원 티켓이 잦은 고객의 갱신율이 더 낮은지, 어떤 세그먼트가 특정 제품 기능에 가장 잘 반응하는지 등 전체 고객 라이프사이클에 걸친 질문에 답할 수 있습니다.
격리된 스프레드시트와 단절된 파이프라인을 공유되고 관리되는 데이터 레이어로 대체함으로써 조직은 고객 여정을 더 명확하게 파악할 수 있습니다. 이러한 공유된 가시성은 더 정확한 예측을 지원하고 모든 고객 대면 기능에서 더 나은 개인화를 가능하게 합니다.
ETL 은 소스 시스템에서 데이터를 추출하고 비즈니스 요구 사항에 맞게 변환한 다음 대상 환경에 로드하는 오래된 데이터 통합 접근 방식입니다. 이는 규제 보고, 재무 분석 및 고도로 선별된 정형 데이 터가 필요한 기타 워크플로에 널리 사용됩니다.
ETL은 데이터가 대상 시스템에 들어가기 전에 변환이 이루어져야 하는 경우에 특히 유용하며, 이를 통해 다운스트림 소비자는 일관성 있는 사전 정의된 스키마를 받을 수 있습니다. ETL 개념 및 구현 패턴에 대한 자세한 내용은 O'Reilly의 ETL 이해 기술 가이드를 참조하세요.
ELT는 가공되지 않은 데이터를 먼저 대상 시스템에 로드한 다음 그곳에서 변환하여 순서를 뒤집습니다. 클라우드 기반 시스템은 탄력적인 compute를 제공하므로 ELT는 더 효율적이고 확장 가능하며 유연할 수 있습니다. 또한 가공되지 않은 데이터를 보존하므로 데이터 팀은 나중에 다시 추출할 필요 없이 데이터세트를 재검토하거나 용도를 변경할 수 있습니다.
조직은 규제가 엄격하거나 선별된 데이터 세트에는 ETL을, 탐색적 분석이나 대규모 워크로드에는 ELT를 자주 사용합니다. ETL과 ELT의 차이점에 대해 자세히 알아보세요.
데이터 가상화를 사용하면 데이터를 물리적으로 이동하지 않고도 서로 다른 시스템의 데이터를 쿼리할 수 있으므로 분산된 정보에 빠르게 액세스할 수 있습니다. 다음과 같은 경우에 유용합니다.
가상화는 분산된 소스에 대한 액세스를 개선하지만, 로컬 처리 및 최적화된 스토리지 형식으로 최상의 성능을 발휘하는 컴퓨팅 집약적인 분석이나 대규모 ML 학습에는 덜 적합합니다.
데이터 페더레이션을 사용하면 쿼리 시 여러 소스 시스템에서 쿼리를 실행할 수 있으며, 각 시스템은 요청의 해당 부분을 처리합니다. 데이터 액세스를 추상화하거나 최적화하는 대신, 페더레이션은 시스템 간 쿼리를 조정하고 결과를 단일 뷰로 결합합니다.
이 접근 방식은 규제 또는 운영상의 제약으로 인해 데이터를 제자리에 두어야 하거나 팀이 새로운 수집 파이프라인을 구축하지 않고도 시스템 전반의 인사이트를 필요로 할 때 유용합니다. 성능은 기본 소스 시스템에 따라 달라지므로 페더레이션은 일반적으로 복잡한 분석이나 compute 집약적인 워크로드에 적합하지 않습니다.
복제는 가용성과 일관성을 보장하기 위해 여러 시스템에서 데이터 사본을 동기화합니다. 다음을 지원할 수 있습니다.