하둡(Hadoop)
아파치 하둡(Apache Hadoop)은 오픈 소스, Java 기반 소프트웨어 플랫폼으로 빅데이터 애플리케이션용 데이터 처리와 스토리지를 관리하는 역할을 합니다. Hadoop 플랫폼은 컴퓨팅 클러스터 내 여러 노드에 걸쳐 Hadoop 빅데이터와 분석 작업을 분배하며, 그 과정에서 작업을 동시에 실행 가능한 작은 크기의 워크로드로 분해합니다. Hadoop의 주요 장점은 확장성, 복원력, 유연성입니다. HDFS(Hadoop Distributed File System)는 하드웨어 또는 소프트웨어 장애로부터 보호하기 위해 클러스터의 모든 노드를 클러스터의 다른 노드로 복제하여 안정성과 복원력을 제공합니다. Hadoop의 유연성 덕분에 정형 및 비정형 데이터를 포함한 모든 데이터 형식을 저장할 수 있습니다.
그러나 Hadoop 아키텍처는 특히 시간이 지날수록 여러 가지 문제에 직면하게 됩니다. Hadoop 아키텍처의 구조는 매우 복잡하기 때문에 설정, 유지 관리, 업그레이드에 상당한 리소스와 전문 지식이 필요할 수 있습니다. 또한 계산을 수행하는 데 빈번하게 사용되는 읽기와 쓰기로 인해 시간이 많이 걸리고 비효율적입니다. 주요 Hadoop 공급업체가 Hadoop 플랫폼에서 벗어나기 시작하면서 Hadoop의 장기적 실행 가능성이 지속적으로 저하되고 있으며 디지털화에 대한 요구가 늘어나면서 많은 기업이 Hadoop과의 관계를 재평가하게 되었습니다. 데이터 플랫폼을 현대화하는 가장 좋은 솔루션은 Hadoop에서 Databricks Lakehouse Platform으로 마이그레이션하는 것입니다. Hadoop의 문제점과 최신 데이터 플랫폼으로의 전환에 대한 자세한 정보는 블로그 게시물을 참조하세요.
자세히 보기
하둡 프로그래밍이란 무엇인가요?
하둡 프레임워크에서 코드는 대부분 Java로 작성되지만, 일부 네이티브 코드는 C를 기반으로 합니다. 또한, 명령줄 유틸리티는 셸 스크립트로 작성되는 것이 일반적입니다. 하둡 MapReduce의 경우, Java를 가장 흔히 사용하지만 사용자는 하둡 스트리밍과 같은 모듈을 통해 원하는 프로그래밍 언어로 맵을 구현하고 함수를 줄일 수 있습니다.
하둡 데이터베이스란 무엇인가요?
Hadoop은 데이터 스토리지나 관계형 데이터베이스를 위한 솔루션이 아닙니다. 대신 오픈 소스 프레임워크로써, 실시간으로 엄청난 양의 데이터를 동시에 처리하는 것을 목적으로 합니다.
데이터는 HDFS에 저장됩니다. 그러나 비구조적이어서 관계형 데이터베이스로 간주하기 어렵습니다. 사실, 하둡을 사용하면 데이터를 비구조적, 반구조적, 구조적 형식으로 저장할 수 있습니다. 기업에서는 비즈니스 요구 사항을 충족하고 그 이상까지 기대할 수 있는 방식으로 더욱 유연하게 빅데이터를 처리할 수 있습니다.
하둡은 어떤 유형의 데이터베이스인가요?
기술적으로 하둡은 SQL이나 RDBMS 등의 데이터베이스와는 다릅니다. 대신, 하둡 프레임워크는 사용자에게 다양한 데이터베이스 유형에 대한 처리 솔루션을 제공합니다.
하둡은 기업이 단시간에 방대한 데이터를 처리하도록 도와주는 소프트웨어 에코시스템입니다. 이런 작업은 대규모로 병렬 컴퓨터 처리를 활용하기 때문에 가능합니다. Apache HBase와 같은 여러 데이터베이스는 수백, 수천 개의 상용 서버에 저장된 데이터 노드 클러스터에 흩어져 있습니다.
하둡은 언제 발명되었나요?
Apache Hadoop은 Yahoo나 Google과 같은 검색 엔진이 막 출발한 시점에서 끊임없이 늘어나는 빅데이터를 처리하고 웹 결과를 더 빨리 제공해야 한다는 필요성이 절실해지면서 탄생했습니다.
Google의 MapReduce는 하나의 애플리케이션을 여러 부분으로 나누어 서로 다른 여러 노드에서 실행하는 프로그래밍 모델로, 여기에서 아이디어를 얻은 Doug Cutting과 Mike Cafarella가 2002년에 Apache Nutch 프로젝트를 진행하던 중 Hadoop을 시작했습니다. 뉴욕 타임스 기사에 따르면 Hadoop이라는 이름은 Doug이 아들의 장난감 코끼리 이름에서 따온 것이라고 합니다.
몇 년이 지난 뒤 하둡은 Nutch에서 분할되어 나왔습니다. Nutch는 웹 크롤러 요소 에 집중했지만, 하둡은 분산형 컴퓨팅 및 처리 부분을 담당하게 된 것입니다. Cutting이 Yahoo에 입사하고 2년 후인 2008년, Yahoo에서 하둡을 오픈 소스 프로젝트로 릴리스하였습니다. 2012년 11월에 Apache Software Foundation(ASF)에서 하둡을 Apache Hadoop이라는 이름으로 일반 대중에게 제공하게 되었습니다.
Hadoop은 어떤 영향을 미쳤나요?
Hadoop은 빅데이터 분야에서 중대한 발전이었습니다. 사실, Hadoop은 현대의 클라우드 데이터 레이크의 기초 토대로 인정받고 있습니다. Hadoop은 컴퓨팅 성능을 보편화하고, 기업이 무료 오픈 소스 소프트웨어와 저렴한 기성 하드웨어를 사용하여 확장 가능한 방식으로 빅데이터 세트를 분석하고 쿼리할 수 있게 했습니다.
이것이 중대한 의의가 있는 이유는 하둡 덕분에 당시까지 대세였던 상용(proprietary) 데이터 웨어하우스(DW) 솔루션과 폐쇄형 데이터 형식에 실질적인 대안을 제시해주었기 때문입니다.
하둡이 도입되면서 기업에서 엄청난 양의 데이터를 저장, 처리할 능력을 신속히 확보할 수 있게 되었고, 컴퓨팅 파워를 증가하고 내결함성, 데이터 관리 유연성, DW에 비해 저렴한 비용은 물론 뛰어난 확장성까지 얻게 되었습니다. 궁극적으로 Hadoop은 빅데이터 분석 분야의 향후 개발을 위해 길을 개척했다고 볼 수 있습니다. Apache Spark가 가장 대표적인 예입니다.
하둡은 어디에 사용하나요?
하둡의 경우, 사용 사례는 무궁무진합니다.
리테일
규모가 큰 기업은 그 어느 때보다도 많은 고객 데이터를 손에 쥐고 있습니다. 하지만 서로 관련이 없어 보이는 방대한 데이터 속에서 상관 관계를 찾아내기 어려운 경우가 많습니다. 영국의 리테일 업체인 M&S는 Hadoop 기반 Cloudera Enterprise를 배포한 후, 그 결과에 감탄했습니다.
Cloudera는 데이터를 관리하고 처리하는 데 하둡 기반 지원과 서비스를 사용합니다. M&S는 클라우드 기반 플랫폼을 구현하고 얼마 지나지 않아 데이터를 성공적으로 활용하면서도 예측 분석 성능이 훨씬 향상되었다는 것을 느꼈습니다.
웨어하우스 사용 효율이 향상되었고 수요가 "갑자기" 폭증했을 때 따라가지 못하는 현상을 줄여 시장 경쟁에서 엄청난 우위를 얻었습니다.
재무
Hadoop은 아마도 그 어떤 시스템보다도 금융 부문에 적합할 것입니다. Hadoop 소프트웨어 프레임워크가 나온 지 얼마되지 않았던 초기에 위험 모델링과 관련된 고급 알고리즘을 처리하는 용도로 주로 사용되었습니다. 바로 이런 위험 관리만 있었더라면 2008년에 경기 침체로까지 이어진 신용 스왑 위기를 피하는 데 도움이 되었을 것입니다.
은행도 이 같은 원리가 고객 포트폴리오의 위험 관리에도 적용된다는 것을 깨달았습니다. 요즘에는 금융 기관이 금융 보안 관리와 고객 자산 성과를 개선할 목적으로 Hadoop을 구현하는 사례를 흔히 볼 수 있습니다. JPMorgan Chase도 Hadoop을 사용하여 전 세계에서 폭발적으로 증가하는 고객 데이터를 관리하는 금융 대기업 중 하나입니다.
의료 서 비스
국가에서 운영하든, 민간에서 운영하든, 규모와 관계없이 모든 의료 기관은 방대한 데이터와 고객 정보를 처리해야 합니다. 하둡 프레임워크를 사용하면 의사, 간호사, 간병인이 필요할 때 정보에 쉽게 액세스할 수 있고, 실천 가능한 인사이트를 제공하는 데이터를 쉽게 집계할 수도 있습니다. 이는 공공 보건, 진단 및 치료 개선 등에 적용할 수 있습니다.
학계 및 연구 기관에서도 하둡 프레임워크를 사용해서 연구 활동을 촉진합니다. 암을 비롯한 유전 질환 분야를 예로 들어보겠습니다. 인간 유전체의 지도가 밝혀졌는데, 모두 합치면 30억에 가까운 염기쌍이 존재합니다. 이론적으로는 그 어떤 질병이든 치료할 수 있는 모든 것이 우리 눈앞에 펼쳐져 있습니다.
하지만 복잡한 관계를 파악하기 위해서는 하둡과 같은 시스템이 있어야 대량의 정보를 처리할 수 있습니다.
보안 및 법 집행
하둡은 국가 및 지역 보안의 효과를 향상하는 데도 도움이 됩니다. 여러 지역에서 발생하는 관련 범죄를 해결하려는 경우, 하둡 프레임워크로 두 개의 관계가 없는 듯한 사건을 연결하여 법 집행 기관의 절차를 간소화할 수 있습니다. 사건을 연결하는 데 걸리는 시간이 줄어들었기 때문에 법 집행 기관에서는 최대한 빠른 시일 내에 다른 기관과 국민에게 경고를 보낼 수 있습니다.
2013년에 미국 국가 보안국(NSA)에서는 오픈 소스 Hadoop 소프트웨어가 그동안 자신들이 사용했던 값비싼 솔루션보다 우수하다는 결론을 내렸습니다. 지금은 Hadoop 프레임워크를 사용하여 테러, 사이버 범죄 등의 위협 을 탐지하는 데 도움을 받습니다.
하둡은 어떻게 작동하나요?
하둡은 상용 하드웨어의 클러스터에 방대한 데이터 세트를 분산할 수 있는 프레임워크입니다. 하둡의 처리는 여러 서버에서 동시에 병렬로 수행됩니다.
고객은 데이터와 프로그램을 하둡에 제출합니다. 간단히 말해, HDFS(하둡의 핵심 구성 요소)는 메타데이터와 분산형 파일 시스템을 처리합니다. 그런 다음, 하둡 MapReduce가 입력/출력 데이터를 처리하고 변환합니다. 마지막으로, YARN이 클러스터에 작업을 분산합니다.
하둡을 사용하는 고객은 높은 가용성과 장애 시점 탐지 기능을 기본으로 제공받아, 상용 리소스를 훨씬 효율적으로 사용할 수 있습니다. 또한, 고객은 연결된 비즈니스 시스템에서 쿼리를 수행할 때 빠르게 응답할 수 있습니다.
결론적으로, 하둡은 빅데이터 활용을 극대화하고 싶어 하는 기업에 비교적 간편한 솔루셔능ㄹ 제공합니다.
하둡은 어떤 언어로 작성되었나요?
Hadoop 프레임워크 자체는 대부분 Java를 기반으로 합니다. 다른 프로그래밍 언어로는 C로 작성한 네이티브 코드와 명령줄용 셸 스크립트를 사용합니다. 그러나 Hadoop 프로그램은 Python, C++ 등의 다양한 프로그래밍 언어로 작성할 수 있습니다. 따라서 프로그래머는 자신에게 익숙한 도구를 사용해서 유연하게 일할 수 있습니다.
하둡을 사용하는 방법
앞서 말씀드렸듯이, Hadoop은 빅데이터를 관리해야 하는 조직에 간편한 솔루션을 제공합니다. 그렇다고 해서 언제나 간단히 사용할 수 있다는 것은 아닙니다. 위의 사용 사례에서 알 수 있듯이, Hadoop 프레임워크의 구현 방식은 상당히 유연하게 선택할 수 있습니다.
비즈니스 애널리스트, 데이터 사이언티스트, 개발자가 하둡을 활용하는 방식은 조직과 목표에 따라 달라집니다.
Hadoop이 모든 기업에 적합한 것은 아니지만, 대부분 조직은 Hadoop과의 관계를 새롭게 평가할 필요가 있습니다. 비즈니스의 핵심 프로세스에서 방대한 데이터를 처리해야 하는 경우, Hadoop은 조직의 요구 사항에 맞는 유연하고 경제적이면서도 확장 가능한 솔루션을 제공합니다. 그 이후부터는 조직과 팀이 무엇을 상상하고, 어떤 기술적 능력을 갖추었느냐에 따라 활용도가 달라집니다.
하둡 쿼리 예시
하둡을 쿼리하는 방법의 예시는 다음과 같습니다.
Apache Hive
Apache Hive는 초기에 Hadoop으로 SQL을 쿼리하는 데 일반적으로 사용했던 솔루션이었습니다. 이 모듈은 MySQL의 동작, 구문, 인터페이스를 에뮬레이션하여 프로그래밍을 단순화합니다. Java API와 JDBC 드라이버가 내장되어 있기 때문에 Java 애플리케이션을 많이 사용한다면 좋은 옵션이 됩니다. Hive는 개발자에게 빠르고 간단한 솔루션을 제공하지만 다소 느리고 읽기 전용 기능만 제공하기 때문에 상당히 제한적입니다.
IBM BigSQL
IBM에서는 하둡에 고성능 대량 병렬 처리(MPP) SQL 엔진을 제공합니다. 안정적이고 안전한 환경에서 쉽게 사용할 수 있는 솔루션을 원하는 기업을 위한 쿼리 솔루션입니다. HDFS 데이터에 액세스하는 것 외에도, RDBMS, NoSQL 데이터베이스, WebHDFS 및 기타 데이터 소스에서 가져올 수 있습니다.
하둡 에코시스템이란 무엇입니까?
하둡이라는 용어는 일종의 보편 명사로 다음과 같은 다양한 의미가 있습니다.