2024년 11월 11일

데이터 사일로 설명: 발생하는 문제점과 해결책

데이터 사일로란 무엇인가요?

데이터는 기업의 가장 가치 있는 자산 중 하나이지만, 그 가치는 기업이 데이터를 얼마나 잘 활용하여 비즈니스 의사결정을 내리고 성과와 수익을 창출하는지에 달려 있습니다. 데이터 사일로는 기업이 데이터에 대한 완전한 시각을 확보하는 것을 방해하며, 이러한 격차는 리더가 데이터 기반 의사결정을 내리는 능력에 영향을 미칠 수 있습니다.

“사일로”라는 이름은 농장의 사일로 이미지를 떠올리게 할 수 있는데, 이곳에서는 서로 다른 곡물이 별도의 용기에 저장됩니다. 데이터 사일로는 기업 내 데이터의 이러한 분리를 의미합니다. 서로 다른 팀이 종종 데이터를 별도로 수집, 관리 및 저장하며, 특정 그룹 내에서만 접근이 제한됩니다. 때로는 제품 단위 또는 직무 기능에 따라 분리가 설계되지만, 때로는 인수합병을 통해 데이터 사일로가 생성되기도 합니다.

많은 조직에서 데이터는 유형별로 분리됩니다. 이 경우 구조화된 데이터는 온프레미스와 클라우드 모두에 있는 여러 데이터 웨어하우스에 저장됩니다. 한편, 비정형 데이터와 스트리밍 데이터는 데이터 레이크에 별도로 저장됩니다. 이러한 분리는 데이터 관리를 복잡하게 만들고 조직이 데이터에서 추출할 수 있는 가치를 제한합니다.

데이터 사일로는 왜 문제가 될까요?

데이터 사일로는 데이터 가시성과 접근을 방해하고, 비효율성과 비용을 증가시키며, 효과적인 거버넌스를 저해하고, 조직이 중요한 인사이트를 놓치게 만들기 때문에 문제가 됩니다.

회사의 데이터가 별도의 그룹에서 관리하는 여러 독립적인 시스템에 분산되어 있을 때, 모든 데이터에 접근하는 것은 불가능하지는 않더라도 매우 어렵습니다. 집계된 데이터를 분석하는 것도 어렵습니다. 팀은 종종 조정하기 어려운 중복 데이터나 격차를 남기는 누락된 데이터로 어려움을 겪습니다. 또한 구조화된 데이터와 비정형 데이터가 다른 위치에 저장되어 고급 머신러닝 기능과 GenAI 이니셔티브를 구현하기 어렵습니다.

데이터 사일로를 제거하면 리더가 회사 전체의 완전한 시각을 확보하고, 중복 및 비효율성을 줄이며, 거버넌스를 간소화하고, 데이터 기반 의사결정을 내리기 위해 AI 기능을 최대한 활용할 수 있습니다.

데이터 사일로의 비즈니스 비용

데이터 사일로가 있는 기존 아키텍처에서 최신 데이터 레이크하우스로 전환하면 기업은 데이터에 대한 가시성을 확보할 수 있으며 비용도 절감할 수 있습니다. 데이터가 여러 팀에 분산되어 있을 때 각 팀은 고유한 데이터 요구 사항을 지원하기 위한 인프라 및 IT 직원의 비용을 부담해야 합니다. 데이터를 중앙 집중화하면 기업은 기술 스택을 통합하고 관리 및 유지보수 비용을 줄일 수 있습니다.

데이터 레이크하우스와 같은 최신 데이터 아키텍처는 향상된 유연성과 확장성을 제공하여 기업이 컴퓨팅 비용을 제어하도록 돕습니다. 필요한 컴퓨팅 클러스터에 따라 동적으로 확장 및 축소되는 Databricks와 같은 클라우드 솔루션에서 데이터 준비 및 임시 분석을 수행하면 기업이 사용하지 않는 컴퓨팅 리소스에 대해 비용을 지불하지 않도록 보장합니다. 예를 들어, Delta Lake와 Databricks로 전환한 Relogix는 인프라 비용을 80% 절감했습니다.

데이터 사일로는 어떻게 발생하나요?

데이터 사일로는 종종 회사 조직도와 유사하며, 데이터 사일로는 서로 다른 비즈니스 단위 또는 제품 그룹으로 데이터가 분리될 때 종종 생성됩니다. 이러한 분리는 데이터 관리에 대한 상충되는 접근 방식이나 특정 데이터를 기밀로 유지하려는 욕구에 의해 강화될 수 있습니다. 그러나 데이터 기밀성은 적절한 액세스 제어를 통해 더 잘 달성할 수 있습니다. 또한 엔지니어링, 마케팅, 재무와 같은 분야는 데이터 요구 사항과 우선순위가 다르기 때문에 직무 유형에 따라 데이터가 분리될 수도 있습니다.

일부 팀은 서로 충분히 소통하지 않아 노력을 중복하고 있다는 사실을 깨닫지 못합니다. 의사소통 부족은 팀이 다른 팀의 요구 사항을 인지하지 못하고 다른 팀이 유용하게 볼 수 있는 데이터를 가지고 있다는 사실을 깨닫지 못하는 결과를 초래할 수도 있습니다. 팀이 독립적으로 데이터를 관리하고 수집하는 접근 방식을 개발함에 따라 사일로는 커지고, 데이터를 독립적으로 저장하면서 의도치 않게 호환되지 않는 시스템을 개발하여 데이터를 공유하기 어렵게 만듭니다.

데이터 사일로는 조직의 사일로를 반영할 뿐만 아니라, 모든 데이터가 종종 유형별로 분리된 방식으로 저장됩니다. 구조화된 데이터는 여러 온프레미스 및 클라우드 데이터 웨어하우스에 저장되는 반면, AI에 사용되는 비정형 데이터는 데이터 레이크에 저장됩니다. 이러한 각 아키텍처 패턴은 자체 거버넌스 모델을 필요로 하여 조직이 데이터에 안전하게 액세스하고 경쟁 우위를 확보하는 AI 인사이트에 사용하는 능력을 제한합니다.

데이터 사일로 식별 방법

데이터 사일로는 일상적인 비즈니스 운영에서 발생하는 사용 사례를 통해 유기적으로 식별되는 경우가 많습니다. 팀은 특정 데이터에 대한 액세스 권한이 없거나 찾을 수 없다는 것을 깨닫습니다. 직원들은 보고서를 컴파일하는 데 드는 시간과 수동 노력에 대해 불평할 수 있습니다. 리더는 서로 다른 팀으로부터 불일치, 중복 또는 누락이 있는 유사한 보고서를 받을 수 있습니다. 팀은 더 많은 통제력이나 빠른 데이터 액세스를 위해 일반적인 데이터 도구 외부에서 데이터를 저장하고 추적하기 시작할 수 있으며, 이는 데이터의 중복 및 오프라인 복사본으로 이어집니다.

기업은 데이터 감사를 수행하여 데이터 사일로를 선제적으로 식별할 수 있습니다. 회사 전체의 다양한 데이터 소스를 신중하게 추적하고 문서화하면 리더는 데이터 관리 및 저장 상황을 명확하게 이해할 수 있습니다. 이를 중앙 집중식 데이터 모델로 전환하기 위한 계획의 시작점으로 사용할 수 있습니다. 사일로가 제거되고 중앙 집중식 아키텍처가 구축되면, 새로운 사일로를 감지하고 신속하게 중앙 데이터 저장소로 다시 가져오기 위해 정기적으로 소규모 데이터 감사를 수행할 수 있습니다.

데이터 사일로 해소 방법

데이터 사일로가 식별되면 기업은 이를 해소하고 중앙 집중식 공유 스토리지 솔루션으로 전환하기 위한 단계를 시작할 수 있습니다.

클라우드 스토리지 솔루션은 중앙 집중식 데이터를 단일 위치에 저장하는 확장 가능한 방법을 제공하지만, Amazon 및 Azure와 같은 기존 클라우드 솔루션은 종종 스토리지 덤프가 됩니다. 즉, 구성 구조나 공유 스토리지 사용 방법에 대한 공유된 이해 없이 데이터를 저장하는 공유 위치가 됩니다.

클라우드 데이터 웨어하우스는 스키마 정의를 통해 추가적인 질서와 이해를 제공합니다. 정의된 스키마를 통해 데이터를 분류하고 구성하여 더 큰 분석 인사이트를 얻을 수 있습니다. 그러나 이러한 스키마를 정의하고 유지 관리하는 데 시간이 많이 걸릴 수 있으며, 단일 스키마에서 비즈니스에 필요한 모든 데이터 유형을 지원하는 것은 어려울 수 있습니다.

데이터 레이크는 데이터 웨어하우스보다 유연성이 뛰어난데, 데이터 스키마가 필요하지 않고 이미지, 비디오, 오디오, 문서와 같은 비정형 및 반정형 데이터를 포함한 모든 데이터 유형을 지원할 수 있기 때문입니다. 이러한 유연성 덕분에 팀은 데이터 관리 관행을 크게 변경하지 않고도 단일 중앙 스토리지 위치로 쉽게 전환할 수 있습니다. 또한 데이터 레이크는 다양한 형식에 대한 분석을 가능하게 하며 사용자가 데이터 웨어하우스의 비용 및 공급업체 종속성에 대한 우려를 해결할 수 있도록 합니다.

데이터 레이크 덕분에 일부 기업은 비용이 많이 드는 독점 데이터 웨어하우스 소프트웨어에서 데이터 레이크로 전환할 수 있었습니다. 또한 데이터 레이크는 데이터 웨어하우스로는 불가능했던 방대한 양의 비정형 데이터를 분석할 수 있게 해주었으며 머신러닝도 가능하게 했습니다.

그러나 데이터 레이크는 트랜잭션을 지원하지 않으며 많은 기업에서 요구하는 보안 기능이 부족합니다. 데이터가 증가함에 따라 성능 문제도 발생할 수 있습니다. 데이터 웨어하우스는 이러한 기능 영역에서 더 안정적이지만, 구조화된 데이터만 지원하며 데이터 레이크 및 데이터 레이크하우스와 같은 개방형 형식이 아닙니다.

데이터 레이크하우스는 데이터 레이크의 확장성과 유연성에 데이터 웨어하우스의 트랜잭션 지원 및 거버넌스를 결합하여 진정한 데이터 사일로 해소를 위한 고급 AI 및 분석 시나리오를 가능하게 합니다. 데이터 레이크하우스는 사용자가 단일 플랫폼에서 BI, SQL 분석, 데이터 과학 및 AI에 이르기까지 모든 것을 수행할 수 있도록 합니다. 레이크하우스는 데이터 레이크를 구축하는 데 있어 데이터 웨어하우스의 안정성, 성능 및 품질과 같은 속성을 추가하면서 데이터 레이크의 개방성과 확장성을 유지하는 독자적인 접근 방식을 취합니다.

레이크하우스는 Delta Lake 또는 Apache Iceberg와 같은 오픈 소스 테이블 형식 위에 구축됩니다. 이를 통해 팀은 데이터 레이크에 구조화된 데이터, 반정형 데이터 및 비정형 데이터를 저장하고 공급업체 종속성을 방지하는 이식 가능한 형식을 사용할 수 있습니다. 이러한 형식은 ACID 트랜잭션, 스키마 적용 및 데이터 유효성 검사를 제공합니다.

조직이 오픈 데이터 레이크하우스를 채택할 때 직면하는 주요 과제 중 하나는 데이터에 대한 최적의 형식을 선택하는 것입니다. 독점 형식에 데이터를 넣는 것보다 어떤 개방형 형식이든 더 낫습니다. 그러나 표준화할 단일 스토리지 형식을 선택하는 것은 어려운 작업이 될 수 있으며, 이는 의사결정 피로와 돌이킬 수 없는 결과에 대한 두려움을 초래할 수 있습니다.

Delta UniForm (Delta Lake Universal Format의 약자)는 추가 데이터 복사본이나 사일로를 생성하지 않고 테이블 형식을 간단하고 쉽게 구현하며 원활하게 통합할 수 있는 기능을 제공합니다. UniForm을 사용하면 Delta Lake 테이블을 Iceberg 테이블로 읽을 수 있으므로 Delta Lake 또는 Iceberg 생태계와 함께 작동하는 모든 컴퓨팅 엔진을 사용할 수 있습니다.

데이터 사일로가 만드는 또 다른 문제는 내부 및 외부 협업 제한으로, 정보와 혁신의 흐름을 방해합니다. 이러한 사일로를 해체하고 데이터 레이크, 데이터베이스, 웨어하우스 및 카탈로그 전반에 걸쳐 통합된 단일 진실 공급원을 구축함으로써 조직은 Open API를 사용하는 모든 컴퓨팅 엔진이나 도구에서 데이터 및 AI 자산에 원활하게 액세스할 수 있도록 지원할 수 있습니다. 이것이 바로 Databricks Unity Catalog가 데이터 및 AI를 위한 업계 유일의 통합되고 개방적인 거버넌스 솔루션으로 등장하는 이유입니다.

Unity Catalog를 통해 조직은 클라우드나 플랫폼에 관계없이 구조화된 데이터와 비구조화된 데이터, AI 모델, 파일을 포함한 데이터 및 AI 자산을 원활하게 관리할 수 있습니다. 데이터 과학자, 분석가 및 엔지니어가 안전하게 검색, 액세스 및 협업할 수 있도록 하여 AI를 통한 생산성을 향상시킵니다. 상호 운용성을 촉진하고 데이터 이니셔티브를 가속화함으로써 Unity Catalog는 공급업체 종속을 피하면서 규정 준수를 단순화하고 대규모 협업을 주도합니다.

추출, 변환, 로드 도구

추출, 변환 및 로드(ETL) 프로세스는 팀이 데이터를 표준화하고 공유하는 데 도움이 됩니다. ETL 도구를 활용하여 기존 사일로에서 데이터 레이크하우스와 같은 중앙 집중식 위치로 데이터를 이동할 수 있습니다. 엔지니어는 ETL 파이프라인을 구축하여 지속적인 실시간 수집을 관리하고 공유 중앙 스토리지로 들어오는 데이터에 대한 품질 관리를 유지할 수 있습니다.

문화적 변화

데이터 사일로를 해체하고 재발을 방지하려면 문화적 변화와 중앙 집중식 데이터 스토리지 사용을 위해 시스템 및 프로세스를 마이그레이션하는 방법에 대한 신중한 계획이 필요합니다. 팀이 새로운 데이터 스토리지 솔루션 채택을 막는 격차 또는 기술적 과제가 무엇인지 이해하는 것이 모두를 참여시키는 데 중요하며 변경 관리 결정에 영향을 미칠 것입니다. 이상적으로는 새로운 프로세스는 확장 가능하고 유연하며 회사 요구 사항과 데이터 요구 사항이 발전함에 따라 적응할 수 있어야 합니다.

추가 거버넌스 및 데이터 관리 정책을 시행하면 향후 새로운 데이터 사일로가 발생하는 것을 방지하는 데 도움이 됩니다. 정책, 표준 및 절차에 대한 명확한 문서는 팀이 공유 중앙 스토리지 내에서 데이터를 채택하고 계속 관리하는 데 필수적입니다. 정기적인 데이터 감사를 수행하면 프로세스의 격차 또는 문화적 변화를 이루지 못한 회사 영역을 신속하게 식별할 수 있습니다.

경영진의 지원과 경영진의 동의를 얻는 것은 문화 변화를 달성하는 데 중요합니다. 명확한 단기 및 장기 이점을 설명하면 광범위한 변화에 대한 지원을 얻는 데 도움이 될 것입니다. 더 쉬워지거나 비용이 덜 드는 현재 데이터 작업을 매핑하고 최신 아키텍처가 가능하게 하는 새로운 기능을 강조하십시오.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)