메타데이터, 스키마, 소유권, 계보 및 품질 지표를 포함하는 검색 가능한 데이터 자산 목록을 통해 문서화를 통한 검색 및 관리가 가능합니다.
작성자: Databricks 직원
비즈니스 환경은 데이터와 AI를 경쟁 우위의 핵심 요소로 만드는 방향으로 발전하였습니다. 데이터는 모든 회사에게 중요한 자산이 되었으며, 데이터 관리는 조직의 전반적인 전략을 지원하기 위해 신중하게 설계되어야 합니다. 데이터 아키텍처는 데이터 관리의 실질적인 운영 방식을 결정하는 프레임워크로, 데이터 및 AI 시대에서 기업의 성장과 성공에 중요한 영향을 미칩니다.
데이터 아키텍처는 조직 내에서 데이터를 관리하기 위해 사용되는 개념, 표준, 정책, 모델, 규칙의 프레임워크로 정의됩니다. 데이터 아키텍처는 기업의 데이터 프로세스와 흐름을 구성하기 위한 청사진이며, 그 목표는 데이터 관리가 조직의 비즈니스 목표와 일치하도록 보장하는 것입니다.
데이터 아키텍처는 데이터 관리의 모든 측면을 포함하며, 다음과 같습니다:
데이터 아키텍처 프레임워크는 아키텍처를 계획, 개발, 구현, 관리, 유지하는 데 사용되는 개념적 구조입니다. 주요 프레임워크 세 가지는:
TOGAF: 가장 일반적으로 사용되는 데이터 아키텍처는 1995년 The Open Group에 의해 개발된 TOGAF입니다. 이 프레임워크는 데이터 아키텍처 전략과 목표를 비즈니스 목표와 일치시키는 데 초점을 맞추고 있습니다.
DAMA-DMBoK2: DAMA International은 2018년에 Data Management Body of Knowledge를 처음으로 출판했습니다. 이 프레임워크는 데이터 관리에 중점을 두고 있으며, 데이터 관리 원칙에 대한 정의와 가이드라인을 포함하고 있습니다.
잭맨 프레임워크: 1987년에 존 잭맨에 의해 개발된 이 프레임워크는 기업 아키텍처를 관리하 기 위한 행렬입니다. 이는 모델, 사양, 문서 등의 요소를 정리하는 데 도움을 줍니다. 이 프레임워크에는 누가, 무엇을, 언제, 어디서, 왜, 어떻게에 대한 여섯 가지 질문이 중심적입니다.
데이터 아키텍처는 조직이 데이터를 효과적으로 활용하기 위해 결합하는 여러 다른 구성 요소로 구성됩니다. 주요 구성 요소의 예는 다음과 같습니다:
데이터 저장: 데이터 저장은 데이터를 안전하게 저장하고 정리하며, 검색, 처리 및 분석할 수 있도록 하는 메커니즘입니다.
데이터 파이프라인: 데이터 파이프라인 은 데이터를 한 시스템에서 다른 시스템으로 이동시키는 엔드 투 엔드 프로세스입니다. 예를 들어, 저장소에서 응용 프로그램으로 이동합니다. 파이프라인에는 데이터 프로세스의 모든 단계, 예를 들어 정제, 저장, 분석 등이 포함됩니다.
데이터 스트리밍: 데이터 스트리밍 또한 데이터를 한 위치에서 다른 위치로 이동시키지만, 이는 소스에서 목적지로 연속적인 흐름(stream) 형태로 전송됩니다. 데이터 스트리밍은 실시간 처리와 분석을 가능하게 합니다.
데이터 대시보드: 데이터 대시보드는 사용자 인터페이스로서 다양한 소스에서 중요한 메트릭과 인사이트를 시각적으로 제시합니다. 이를 통해 실시간 모니터링, 분석, 의사결정이 가능합니다.
데이터 거버넌스: 데이터 거버넌스 는 효율적인 데이터 처리를 위한 정책과 프레임워크를 만드는 과정입니다. 데 이터 거버넌스는 데이터 관련 요구사항을 비즈니스 전략과 정렬시켜 우수한 데이터 관리, 품질, 가시성을 보장합니다. 효과적인 데이터 거버넌스를 통해 조직은 데이터를 최대한 활용하는 동시에 보안과 규정 준수를 확보할 수 있습니다.
데이터 통합: 데이터 아키텍처가 데이터 통합을 촉진하면, 시스템 간 데이터 흐름이 원활해지고 데이터 사일로가 해소되어 조직이 데이터를 효과적으로 활용할 수 있게 됩니다.
데이터 공유: 데이터 공유는 내부 또는 외부 사용을 위해 데이터를 사용 가능하게 하는 능력입니다. 효과적인 데이터 공유를 지원하는 데이터 아키텍처는 협업을 가능하게 하고, 데이터 수익화를 통해 새로운 수익 흐름을 생성하는 기회를 만듭니다.
데이터 분석: 분석은 데이터를 분석하고 해석하는 과정입니다. 분석은 원시 데이터를 패턴, 추세, 상관 관계를 발견하여 실질적인 통찰력으로 변환합니다. 실시간 분석은 생성되는 즉시 스트리밍 데이터를 수집하고 분석하는 방법을 의미하며, 시기가 중요한 애플리케이션에서 자주 사용됩니다. 실시간 분석은 데이터 스트리밍의 기본 기능을 기반으로 합니다.
AI와 머신러닝: 올바른 데이터 아키텍처는 AI와 머신러닝의 힘을 활용하는 데 필수적입니다. 조직이 머신러닝 모델 을 사용하여 유용한 통찰력을 얻거나 AI 애플리케이션을 구축하는 경우입니다. 데이터 아키텍처는 AI 인프라를 지원하며, 효과적인 데이터 흐름과 분석을 가능하게 하고, AI와 머신러닝 결과에 직접적인 영향을 미칩니다.