사물인터넷(IoT) 기기, 소셜 미디어, 전자상거래 등에서 수집한 방대하고 다양한 데이터 세트를 분석하여 숨겨진 패턴, 상관관계, 실행 가능한 통찰력을 밝혀냅니다.
작성자: Databricks 직원
하둡이 발명되기 전에는 현대식 스토리지와 컴퓨팅 시스템의 기저를 이루는 기술이 비교적 기본적이어서, 기업에서는 대부분 "스몰 데이터" 분석만 가능한 한계가 있었습니다. 다만 이렇게 비교적 기본적인 형태의 분석도 어려울 수 있습니다. 특히 새로운 데이터 소스를 통합하는 경우 분석이 쉽지 않습니다. 기존 데이터 분석의 경우, 주로 관계형 데이터베이스(예: SQL 데이터베이스)를 사용하고 구조적 데이터 테이블로 구성되어 있어 원시 데이터를 한 바이트도 빠짐없이 특정 방식으로 형식을 지정해야 분석을 위해 데이터베이스에 수집할 수 있습니다. 이 프로세스에는 보통 시간이 오래 걸리는 데, 이를 통칭 추출, 변환, 로드(extract, transform, load 즉 ETL)라고 하며 새 데이터 소스마다 각각 이 과정을 따로 거쳐야 합니다. 3부분으로 나뉜 이 프로세스 겸 접근법의 주된 문제점은 엄청난 시간이 걸리고 고도로 노동 집약적이라서, 경우에 따라서는 데이터 사이언티스트와 엔지니어가 구현이나 변경하는 데 최장 18개월까지 걸릴 수도 있다는 점입니다.
다만 일단 데이터가 데이터베이스 내에 수집되기만 하면 대부분 데이터 애널리스트가 충분히 손쉽게 쿼리하고 분석할 수 있습니다. 그러다 인터넷, 전자상거래, 소셜 미디어, 모바일 디바이스, 마케팅 자동화, 사물 인터넷(IoT) 디바이스 등이 출현하면서 원시 데이터의 크기, 볼륨과 복잡성이 너무 늘어나 일반적으로 업무를 처리하면서 이를 분석할 수 있는 기관은 손에 꼽을 정도가 되었습니다.
빅데이터 분석은 보통 전자상거래, 모바일 디바이스, 소셜 미디어나 사물 인터넷(IoT)과 같은 다양한 출처에서 생성된 대규모의 다양한 데이터 세트(즉 빅데이터)를 검사하는 복잡한 프로세스를 말합니다. 여기에는 다양한 데이터 소스를 통합하고 비구조적 데이터를 구조적 데이터로 변환하며, 네트워크 전체에 데이터 처리를 널리 퍼뜨리는 전문 툴과 기법을 사용해 데이터에서 인사이트를 생성하는 작업이 포함됩니다. 세상에 존재하는 디지털 데이터의 양은 빠른 속도로 늘어나고 있으며, 2년마다 두 배씩 증가하는 양상입니다. 빅데이터 분석은 이런 모든 데이터 소스를 관리, 분석하기 위해 색다른 방식을 제안한 솔루션입니다. 기존 데이터 분석 원칙이 여전히 그대로 적용되기는 하지만, 빅데이터 분석의 규모와 복잡성 때문에 여기서 다루는 페타바이트급 구조적, 비구조적 데이터를 저장하고 처리하려면 새로운 방식을 개발해야 했습니다. 더 빠른 속도, 더 뛰어난 스토리지 용량을 바라는 수요 덕분에 기술적 진공이 생겼지만 이는 금세 새로운 스토리지 방식으로 채워졌습니다. 데이터 웨어하우스와 데이터 레이크, NoSQL과 같은 비관계형 데이터베이스는 물론 오픈 소스 아파치 하둡(Apache Hadoop), Spark 및 Hive와 같은 데이터 처리 및 데이터 관리 기술이 대표적인 예입니다. 빅데이터 분석은 고급 분석 기법을 활용하여 다양한 소스에서 생성한 구조적, 반구조적, 비구조적 데이터 등 정말 큰 빅데이터를 분석하며, 데이터의 크기도 테라바이트 단위에서 제타바이트 단위까지 다양합니다.
기업에서 빅데이터 분석을 활용하면 자사에서 보유한 데이터를 활용하고 데이터 사이언스 기법과 방식, 예를 들어 자연어 처리, 딥러닝과 머신 러닝 등을 이용해 숨겨진 패턴, 알려지지 않은 상관관계, 시장 동향과 고객 선호도 등을 밝히고 나아가 새로운 기회를 파악하고 좀 더 정보에 입각한 비즈니스 의사 결정을 내리는 데 도움이 됩니다.
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.