주요 컨텐츠로 이동

데이터 분석과 빅데이터 분석의 차이

하둡이 발명되기 전에는 현대식 스토리지와 컴퓨팅 시스템의 기저를 이루는 기술이 비교적 기본적이어서, 기업에서는 대부분 "스몰 데이터" 분석만 가능한 한계가 있었습니다. 다만 이렇게 비교적 기본적인 형태의 분석도 어려울 수 있습니다. 특히 새로운 데이터 소스를 통합하는 경우 분석이 쉽지 않습니다. 기존 데이터 분석의 경우, 주로 관계형 데이터베이스(예: SQL 데이터베이스)를 사용하고 구조적 데이터 테이블로 구성되어 있어 원시 데이터를 한 바이트도 빠짐없이 특정 방식으로 형식을 지정해야 분석을 위해 데이터베이스에 수집할 수 있습니다. 이 프로세스에는 보통 시간이 오래 걸리는데, 이를 통칭 추출, 변환, 로드(extract, transform, load 즉 ETL)라고 하며 새 데이터 소스마다 각각 이 과정을 따로 거쳐야 합니다. 3부분으로 나뉜 이 프로세스 겸 접근법의 주된 문제점은 엄청난 시간이 걸리고 고도로 노동 집약적이라서, 경우에 따라서는 데이터 사이언티스트와 엔지니어가 구현이나 변경하는 데 최장 18개월까지 걸릴 수도 있다는 점입니다. 빅데이터 분석 전의 ETL 다만 일단 데이터가 데이터베이스 내에 수집되기만 하면 대부분 데이터 애널리스트가 충분히 손쉽게 쿼리하고 분석할 수 있습니다. 그러다 인터넷, 전자상거래, 소셜 미디어, 모바일 디바이스, 마케팅 자동화, 사물 인터넷(IoT) 디바이스 등이 출현하면서 원시 데이터의 크기, 볼륨과 복잡성이 너무 늘어나 일반적으로 업무를 처리하면서 이를 분석할 수 있는 기관은 손에 꼽을 정도가 되었습니다.

빅데이터 분석이란 무엇입니까?

빅데이터 분석은 보통 전자상거래, 모바일 디바이스, 소셜 미디어나 사물 인터넷(IoT)과 같은 다양한 출처에서 생성된 대규모의 다양한 데이터 세트(즉 빅데이터)를 검사하는 복잡한 프로세스를 말합니다. 여기에는 다양한 데이터 소스를 통합하고 비구조적 데이터를 구조적 데이터로 변환하며, 네트워크 전체에 데이터 처리를 널리 퍼뜨리는 전문 툴과 기법을 사용해 데이터에서 인사이트를 생성하는 작업이 포함됩니다. 세상에 존재하는 디지털 데이터의 양은 빠른 속도로 늘어나고 있으며, 2년마다 두 배씩 증가하는 양상입니다. 빅데이터 분석은 이런 모든 데이터 소스를 관리, 분석하기 위해 색다른 방식을 제안한 솔루션입니다. 기존 데이터 분석 원칙이 여전히 그대로 적용되기는 하지만, 빅데이터 분석의 규모와 복잡성 때문에 여기서 다루는 페타바이트급 구조적, 비구조적 데이터를 저장하고 처리하려면 새로운 방식을 개발해야 했습니다. 더 빠른 속도, 더 뛰어난 스토리지 용량을 바라는 수요 덕분에 기술적 진공이 생겼지만 이는 금세 새로운 스토리지 방식으로 채워졌습니다. 데이터 웨어하우스와 데이터 레이크, NoSQL과 같은 비관계형 데이터베이스는 물론 오픈 소스 Apache Hadoop, Spark 및 Hive와 같은 데이터 처리 및 데이터 관리 기술이 대표적인 예입니다. 빅데이터 분석은 고급 분석 기법을 활용하여 다양한 소스에서 생성한 구조적, 반구조적, 비구조적 데이터 등 정말 큰 빅데이터를 분석하며, 데이터의 크기도 테라바이트 단위에서 제타바이트 단위까지 다양합니다.

빅데이터 분석과 관련한 가장 보편적인 데이터 유형의 예:

  • 웹 데이터. 방문 수, 페이지 조회, 검색, 구매 등과 같은 고객 수준의 웹 행동 데이터를 말합니다.
  • 텍스트 데이터. 이메일, 뉴스 기, Facebook 피드, Word 문서 등 텍스트 소스에서 생성된 데이터로서 비구조적 데이터 중 가장 크고 가장 널리 사용되는 유형 중 하나입니다.
  • 시간 및 위치 또는 특정 지역 관련(geospatial) 데이터. GPS와 휴대전화는 물론 Wi-Fi 연결 덕분에 시간과 위치 정보가 흥미로운 데이터 출처로서 두각을 드러내게 되었습니다. 여기에는 도로, 건물, 호수, 주소, 사람, 직장, 이동 경로 등 지리적 정보 시스템에서 생성된 정보와 관련된 지리적 데이터도 포함할 수 있습니다.
  • 실시간 미디어. 실시간 데이터 소스에는 실시간 스트리밍이나 이벤트 기반 데이터가 포함됩니다.
  • 스마트 그리드와 센서 데이터.자동차, 송유관, 풍차 터빈 및 여타 센서에서 생성한 센서 데이터를 극히 높은 빈도로 수집할 때가 많습니다.
  • 소셜 네트워크 데이터. Facebook, LinkedIn, Instagram 등과 같은 소셜 네트워크 사이트에서 생성된 비구조적 텍스트(댓글, 좋아요 등)가 늘어나고 있습니다. 심지어 링크 분석을 사용해 주어진 사용자의 네트워크를 밝힐 수 있을 정도입니다.
  • 링크드 데이터(Linked data): HTTP, RDF, SPARQL 및 URL과 같은 표준 웹 기술을 사용해 수집되어온 데이터입니다.
  • 네트워크 데이터. Facebook과 Twitter 같은 초대형 소셜 네트워크나 인터넷, 전화 및 교통수단 네트워크 등의 기술 네트워크와 관련한 데이터입니다.

기업에서 빅데이터 분석을 활용하면 자사에서 보유한 데이터를 활용하고 데이터 사이언스 기법과 방식, 예를 들어 자연어 처리, 딥러닝과 머신 러닝 등을 이용해 숨겨진 패턴, 알려지지 않은 상관관계, 시장 동향과 고객 선호도 등을 밝히고 나아가 새로운 기회를 파악하고 좀 더 정보에 입각한 비즈니스 의사 결정을 내리는 데 도움이 됩니다.

빅데이터 분석을 사용하면 얻을 수 있는 장점의 예:

  • 비용 절감. AWS(Amazon Web Services)나 Microsoft Azure, Apache Hadoop, Spark 및 Hive와 같은 클라우드 컴퓨팅과 스토리지 기술을 이용하면 대규모 데이터 세트 저장과 처리 면에서 경비를 줄이는 데 유리합니다.
  • 의사 결정 개선. Spark와 메모리 내 분석 기능에 새로운 데이터 소스를 신속하게 분석하는 능력을 합치면 실시간으로 의사 결정을 내리는 데 필요한 즉각적이고 실천할 수 있는 인사이트를 얻을 수 있습니다.
  • 신제품과 서비스. 빅데이터 분석 툴의 도움을 빌리면 좀 더 정밀하게 고객 요구사항을 분석할 수 있으므로 제품과 서비스 면에서 고객이 원하는 것을 제공하기 한결 쉬워집니다.
  • 사기 행위 탐지. 빅데이터 분석은 주로 금융 서비스 업계를 무대로 사기 행위 방지에도 쓰이지만, 점차 모든 업종에서 중요성이 부각되며 사용량이 늘어나고 있습니다.

추가 자료

용어집으로 돌아가기