작성자: Manveer Sahota , 아난드 베누고팔
지난 한 해 동안 기업들이 원격 분산 근무 환경에 적응해야만 하면서 클라우드 도입은 전례 없는 속도로 14% 이상 가속화되었으며, 이는 2020년 팬데믹 이전 예측보다 2%, 즉 130억 달러 높은 수치입니다. 향후 몇 년 안에 6,000억 달러 이상이 온프레미스에서 클라우드로 마이그레이션될 가능성이 있습니다. 이러한 클라우드로의 전환은 혁신을 촉진하고 기업의 디지털 전환 전략을 실현하기 위한 차세대 데이터 및 분석 플랫폼의 중요성을 더욱 부각시키고 있습니다. 그러나 많은 조직이 여전히 기존 Hadoop 환경의 복잡성, 확장 불가능한 인프라, 과도한 유지 관리 오버헤드로 인해 어려움을 겪고 있으며, 결국 데이터의 가치를 희생하고 경쟁 우위를 잃을 위험에 처하게 됩니다. 이러한 과제를 해결하고 데이터에 숨겨진 더 많은 기회를 발굴하기 위해, 조직들은 Databricks Lakehouse Platform과 같은 개방적이고 단순하며 협업적인 클라우드 기반 데이터 및 분석 플랫폼으로 전환하고 있습니다. 이 블로그에서는 조직이 최신 클라우드 기반 솔루션을 탐색하도록 이끄는 과제와 차세대 데이터 기반 혁신을 촉발하는 데 있어 레이크하우스 아키텍처가 수행하는 역할에 대해 알아봅니다.
Hadoop의 분산 파일 시스템(HDFS)은 출시 당시 획기적인 기술이었으며 데이터 역사의 전당에 상징으로 남을 것입니다. 이 기술의 출현으로 조직은 더 이상 관계형 데이터베이스의 한계에 얽매이지 않게 되었으며, 이는 최신 빅데이터 스토리지와 궁극적으로 클라우드 데이터 레이크의 탄생으로 이어졌습니다. 2015년에 이르기까지 모든 영광과 찬사에도 불구하고, Hadoop은 모든 데이터 유형, 특히 엔터프라이즈 규모에서 진화하는 잠재력을 지원하는 데 어려움을 겪었습니다. 궁극적으로 데이터 환경과 그에 따른 비즈니스 요구 사항이 진화함에 따라 Hadoop은 약속을 계속 이행하는 데 어려움을 겪었습니다. 그 결과 기업들은 클라우드 기반 대안을 모색하기 시작했으며 Hadoop에서 클라우드로의 마이그레이션 비율은 계속 증가하고 있습니다.
팀들은 다양한 이유로 Hadoop에서 마이그레이션하며, 이는 종종 '푸시'와 '풀' 요인의 조합입니다. 기존 Hadoop 시스템의 한계와 높은 라이선스 및 관리 비용으로 인해 팀은 대안을 모색하고 있습니다. 또한 최신 클라우드 데이터 아키텍처가 제공하는 새로운 가능성에 이끌리기도 합니다. 아키텍처 요구 사항은 조직마다 다르지만, 고객이 작별을 고할 때가 되었다고 깨닫게 하는 몇 가지 공통적인 요인이 있습니다. 다음과 같습니다.

위에 언급된 모든 문제 외에도 Hadoop의 장기적인 존속 가능성에 대한 실질적인 우려가 있습니다. 2019년, 세계는 하둡 분야의 대대적인 붕괴를 목격했습니다. Google에서 2004년에 발표한 중대한 MapReduce 관련 논문은 Apache Hadoop의 제작을 뒷받침하 는 역할을 하였고, 그러면서 MapReduce 사용을 전면 중단하게 되었습니다(Google의 기술 인프라 사업부 선임 부사장(SVP) Urs Hölzle의 트윗 참조). 또한 하둡과 관련해 몇 차례 세간의 이목을 집중시킨 합병과 인수 건도 있었습니다. 또한 지난 2020년에는 하둡의 대표적인 제공업체에서 자사 제품을 하둡 중심에서 벗어나 다른 방향을 지향하기로 했는데, 이는 이제 하둡은 "기술이라기보다 하나의 철학에 가깝기 때문"이라고 밝혔습니다. 마지막으로, 지난 2021년 4월에는 Apache Software Foundation에서 하둡 에코시스템에서 열 개 프로젝트를 사용 중단한다고 발표했습니다. 이렇게 우려되는 상황이 많아진 데다 디지털화가 점점 절실해지면서 수많은 기업이 Hadoop과의 관계를 다시 생각해보게 되었습니다.
lakehouse 아키텍처는 데이터 기반 조직에 이상적인 데이터 아키텍처입니다. 데이터 웨어하우스와 데이터 레이크의 최고 장점을 결합하여 모든 데이터 워크로드를 위한 단일 고성 능 솔루션을 제공합니다. 레이크하우스 아키텍처는 스트리밍 데이터 분석에서 BI, Data Science, AI에 이르기까지 다양한 사용 사례를 지원합니다. 고객들이 Databricks Lakehouse Platform을 선호하는 이유는 무엇일까요?
레이크하우스 아키텍처는 기업의 클라우드 도입을 '견인하는' 레거시 Hadoop 환경에 비해 상당한 이점을 제공할 수 있습니다. 여기에는 클라우드 내에서 Hadoop을 사용해 보았지만 기대하거나 원했던 만큼의 결과를 얻지 못한 고객도 포함됩니다. Scribd의 엔지니어링 디렉터인 R. Tyler Croy는 다음과 같이 설명합니다. “Databricks는 대부분의 기존 Apache Spark™ 워크로드에서 30%–50%의 최적화를 주장했습니다. 호기심에 Databricks의 가격과 잠재적인 Spark 작업 최적화를 고려하여 비용 모델을 리팩토링했습니다. 수치를 조정한 후, 17%의 최적화율만으로도 Databricks가 Amazon Web Services(AWS) 인프라 비용을 크게 절감하여 Databricks 플랫폼 자체 비용을 충당할 수 있다는 사실을 발견했습니다. 초기 평가 후, 저는 이미 Databricks가 제공할 기능과 개발자 속도 향상에 매료되었습니다. 모델에서 수치를 계산해 본 결과, Databricks를 도입하지 않을 수 없다는 것을 깨달았습니다!”
Scribd뿐만이 아닙니다. Hadoop에서 Databricks Lakehouse Platform으로 마이그레이션한 다른 고객은 다음과 같습니다.
Hadoop은 클라우드 환경에서 실행되도록 구축되지 않았습니다. 클라우드 기반 Hadoop 서비스가 온프레미스 서비스에 비해 점진적인 개선을 이루었지만, 둘 다 lakehouse 아키텍처에 비하면 여전히 뒤처집니다. 두 Hadoop 인스턴스 모두 성능과 생산성이 낮고 비용이 높으며, 대규모로 더 정교한 데이터 사용 사례를 처리하지 못합니다.
클라우드 마이그레이션 결정은 비즈니스 결정입니다. 이는 기업들이 현재 시스템의 제공 현실을 냉정하게 살펴보고 단기 및 장기 목표를 위해 무엇을 달성해야 하는지 평가하도록 합니다. AI 투자가 계속해서 추진력을 얻음에 따라 데이터, 분석 및 기술 리더는 '이것으로 우리가 목표하는 바를 이룰 수 있을까?'라는 질문을 던지며 기존 Hadoop 아키텍처를 뛰어넘는 사고를 하는 데 중요한 역할을 해야 합니다.
목표가 명확해지면 기술 매핑, 클라우드 리소스 활용 및 비용 대비 성능 평가, 오류와 위험을 최소화하는 마이그레이션 프로젝트 구성과 같은 중요한 기술적 세부 사항이 뒤따릅니다. 하지만 가장 중요한 것은 Hadoop과의 관계를 재평가할 때가 되었다는 데이터 기반의 확신을 갖는 것입니다. Hadoop 마이그레이션이 데이터 사용 사례 전반에 걸쳐 비즈니스 성과를 가속화하는 방법을 자세히 알아보세요.
1. 출처: Gartner Market Databook, Goldman Sachs Global Investment Research
(이 글은 AI 의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.