Data Transformation (데이터 변환)
데이터 변환이란?
데이터 변환은 데이터 소스에서 추출된 가공되지 않은 데이터를 사용 가능한 데이터세트로 변환하는 프로세스입니다. 데이터 파이프라인에는 여러 데이터 변환이 포함되는 경우가 많으며, 복잡한 정보를 정제되고 신뢰할 수 있는 고품질의 데이터로 변경하여 조직의 운영 요구 사항을 충족하고 실행 가능한 인사이트를 생성하는 데 사용할 수 있도록 합니다. 데이터 변환 프로세스는 데이터 엔지니어링의 핵심 프로세스입니다.
자세히 보기
데이터 변환이 중요한 이유
데이터 변환 프로세스는 비즈니스 데이터 애플리케이션에서 사용할 수 있도록 데이터세트를 조작합니다. 비즈니스 의사 결정을 내리는 데 사용할 수 있는 인사이트를 생성하여 가공되지 않은 데이터에서 가치를 실현하는 것이 중요합니다. 변환은 조직이 비즈니스의 과거, 현재, 미래를 더 잘 이해하고 민첩한 방식으로 기회를 추구하는 데 필요한 데이터를 제공합니다.
데이터 변환 및 ETL
데이터 변환은 ETL(추출, 변환, 로드)의 핵심입니다. 이 프로세스를 통해 데이터 엔지니어는 다양한 소스에서 데이터를 추출하고, 데이터를 사용 가능하고 신뢰할 수 있는 리소스로 변환하고, 최종 사용자가 액세스하고 다운스트림 방식으로 사용하여 비즈니스 문제를 해결할 수 있도 록 시스템에 데이터를 로드할 수 있습니다. 변환 단계에서는 데이터를 정리, 매핑, 변환(대개 특정 스키마로)합니다.
데이터 변환의 예
데이터의 품질과 무결성을 보장하기 위해 여러 가지 유형의 변환을 사용할 수 있습니다. 예를 들면 중복된 데이터를 제거하여 데이터 품질과 성능을 높이는 데이터 중복 제거, 관련 없는 데이터를 필터링하여 품질을 높이는 데이터 정제, 서로 다른 데이터 유형을 동일한 구조로 병합하는 데이터 통합 등이 있습니다. 다음 섹션에서는 더 많은 유형의 데이터 변환과 해당 정의를 소개합니다.
데이터 변환 유형
데이터 변환 프로세스는 데이터 및 최종 변환 목표에 따라 다양한 기술을 사용하여 수행할 수 있습니다. 여기에는 다음과 같은 기술이 포함될 수 있습니다.
버킷팅/비닝: 숫자 계열을 더 작은 '버킷' 또는 '빈'으로 나눕니다. Threshold 집합을 사용하여 숫자 기능을 범주형 기능으로 변경하면 됩니다.
데이터 집계: 보고 및 시각화에 더 잘 사용할 수 있도록 데이터를 요약하는 프로세스입니다. 집계는 시간, 공간 또는 기타 차원에 따른 값의 합계, 평균 또는 중앙값을 사용하는 등 다양한 방법을 사용하여 수행할 수 있습니다.
데이터 정리: 부정확하거나 불완전하거나 오래된 정보를 삭제하여 데이터의 정확성과 품질을 높이는 프로세스입니다.
데이터 중복 제거: 데이터 전송 프로세스의 속도를 높이기 위해 데이터의 중복 복사본을 식별하여 제거하는 압축 프로세스입니다.
데이터 파생: 데이터 소스에서 필요한 특정 정보만 추출하는 규칙을 만듭니다.