2023년 11월 15일

데이터 인텔리전스 플랫폼 (Data Intelligence Platform)

AI가 데이터 플랫폼을 근본적으로 변화시키는 방법과 데이터가 엔터프라이즈 AI를 어떻게 변화시킬 것인지에 대한 우리의 관점

작성자: Michael Armbrust, Adam Conway, Ali Ghodsi, Naveen Rao, Arsalan Tavakoli-Shiraji, Patrick Wendell, Reynold Xin , Matei Zaharia

(번역: Sang-bae Lim) Original Blog Post

"소프트웨어가 세상을 집어삼키고 있다"는 견해는 최신 기술 산업을 대변하고 있습니다. 오늘날 소프트웨어는 우리가 착용하는 시계부터 집, 자동차, 공장 및 농장에 이르기까지 우리 삶의 어디에나 있습니다. Databricks는 머지않아 AI가 모든 소프트웨어를 집어삼킬 것이라고 믿습니다. 즉, 지난 수십 년 동안 구축된 소프트웨어는 데이터를 활용하여 지능화되어 훨씬 더 현명해질 것입니다. 그 영향은 방대하고 다양하며 고객 지원에서 의료 및 교육에 이르기까지 모든 것에 영향을 미칩니다.

이 블로그에서는 AI가 데이터 플랫폼을 어떻게 변화시킬 것인지에 대해 설명합니다. 데이터 플랫폼에 대한 AI의 영향은 점진적인 것이 아니라 데이터 액세스의 대중화, 수동 관리의 자동화, 맞춤형 AI 애플리케이션의 턴키 제작 지원 등 근본적인 변화를 가져올 것이라고 주장합니다. 이 모든 것은 조직의 데이터를 심층적으로 이해하는 새로운 통합 플랫폼을 통해 가능해질 것입니다. 이러한 차세대 시스템을 데이터 인텔리전스 플랫폼이라고 부릅니다.

지금까지의 데이터 플랫폼과 그 과제

데이터 웨어하우스는 1980년대에 기업에서 구조화된 비즈니스 데이터를 구성하기 위한 솔루션으로 등장했습니다. 그러나 2010년에 이르러 조직은 AI와 같은 보다 다양한 사용 사례를 지원하기 위해 상당한 양의 비정형 데이터를 축적하기 시작했습니다. 이 문제를 해결하기 위해 데이터 레이크는 모든 유형의 데이터를 위한 확장 가능한 개방형 시스템으로 도입되었습니다. 2015년에는 대부분의 조직이 데이터 웨어하우스와 데이터 레이크를 모두 운영하는 것이 보편화되었습니다. 그러나 이러한 이중 플랫폼 접근 방식은 거버넌스, 보안, 안정성 및 관리에서 중요한 문제를 야기했습니다.

5년 전, 데이터브릭스는 두 세계의 장점을 결합하고 통합하기 위해 레이크하우스 개념을 개척했습니다. 레이크하우스는 모든 데이터를 개방형 형식으로 저장 및 관리하며, BI에서 AI에 이르는 다양한 워크로드를 기본적으로 지원합니다. 레이크하우스는 처음으로 (1) 조직이 보유한 모든 데이터를 쿼리하고 (2) 데이터를 사용하는 모든 워크로드(BI, AI 등)를 일원화된 방식으로 관리할 수 있는 통합 시스템을 제공했습니다. 레이크하우스는 자체 데이터 플랫폼 범주가 되었으며, 현재 기업에서 널리 채택하고 있으며 대부분의 공급업체 스택에 통합되어 있습니다.

이러한 진전에도 불구하고 현재 시장에 나와 있는 모든 데이터 플랫폼은 여전히 다음과 같은 몇 가지 주요 과제에 직면해 있습니다.

기술 역량 장벽: 데이터를 쿼리하려면 SQL, Python 또는 BI에 대한 전문 기술이 필요하므로 학습에 많은 노력이 필요합니다.
데이터 정확성 및 큐레이션: 대규모 조직에서는 올바르고 정확한 데이터를 찾는 것이 어려우며 광범위한 큐레이션과 계획이 필요합니다.
관리 복잡성: 데이터 플랫폼은 고도의 기술 인력이 관리하지 않을 경우 비용이 급증하고 성능이 저하될 수 있습니다.
거버넌스 및 개인 정보 보호: 전 세계적으로 거버넌스 요구 사항이 빠르게 진화하고 있으며 AI의 출현으로 계보, 보안 및 개인 정보 보호에 대한 우려가 증폭되고 있습니다.
새로운 AI 애플리케이션: 도메인별 요청에 응답하는 생성형 AI 애플리케이션을 구현하기 위해 조직은 데이터와 분리된 플랫폼에서 LLM을 개발 및 조정하고 수동 엔지니어링을 통해 데이터에 연결해야 합니다.

이러한 문제의 대부분은 데이터 플랫폼이 조직의 데이터와 데이터 사용 방법을 근본적으로 이해하지 못하기 때문에 발생합니다. 다행히도 생성형 AI는 바로 이러한 문제를 해결할 수 있는 강력하고 새로운 도구를 제공합니다.

데이터 인텔리전스 플랫폼의 핵심 아이디어

데이터 인텔리전스 플랫폼은 AI 모델(AI Model)을 사용하여 엔터프라이즈 데이터의 의미를 깊이 이해함으로써 데이터 관리를 혁신합니다. 우리는 이것을 데이터 인텔리전스라고 부릅니다. 기업 전체의 모든 데이터를 쿼리하고 관리하는 통합 시스템인 레이크하우스를 기반으로 구축되지만 데이터(콘텐츠 및 메타데이터)와 사용 방법(쿼리, 보고서, 계보 등)을 모두 자동으로 분석하여 새로운 기능을 추가합니다. 데이터에 대한 이러한 심층적인 이해를 통해 데이터 인텔리전스 플랫폼은 다음을 가능하게 합니다.

자연어 액세스: 데이터 인텔리전스 플랫폼은 AI 모델을 활용하여 각 조직의 전문 용어 및 약어에 맞게 조정된 자연어로 데이터 작업을 가능하게 합니다. 이 플랫폼은 기존 워크로드에서 데이터가 어떻게 사용되는지 관찰하여 조직의 용어를 학습하고 비전문가부터 데이터 엔지니어에 이르기까지 모든 사용자에게 맞춤형 자연어 인터페이스를 제공합니다.
시맨틱 카탈로그 작성 및 검색: 생성형 AI는 각 조직의 데이터 모델, 메트릭 및 KPI를 이해하여 탁월한 검색 기능을 제공하거나 데이터 사용 방식의 불일치를 자동으로 식별할 수 있습니다.
자동화된 관리 및 최적화: AI 모델은 데이터 사용량에 따라 데이터 레이아웃, 파티셔닝 및 인덱싱을 최적화하여 수동 튜닝 및 설정 구성의 필요성을 줄일 수 있습니다.
거버넌스 및 개인 정보 보호 강화: 데이터 인텔리전스 플랫폼은 민감한 데이터의 오용을 자동으로 감지, 분류 및 방지하는 동시에 자연어를 사용하여 관리를 간소화할 수 있습니다.
AI 워크로드에 대한 최고 수준의 지원: 데이터 인텔리전스 플랫폼은 관련 비즈니스 데이터에 연결하고 데이터 인텔리전스 플랫폼에서 학습한 의미 체계(메트릭, KPI 등)를 활용하여 정확한 결과를 제공할 수 있도록 함으로써 모든 엔터프라이즈 AI 애플리케이션을 향상시킬 수 있습니다. AI 애플리케이션 개발자는 더 이상 취약한 프롬프트 엔지니어링을 통해 인텔리전스를 함께 "해킹"할 필요가 없습니다.

이것이 지난 몇 년 동안 BI 도구에 추가된 자연어 Q&A 기능과 어떻게 다른지 궁금해하는 사람도 있을 수 있습니다. BI 도구는 전체 데이터 워크로드 중 극히 일부(중요하지만)로 발생하는 대부분의 워크로드 또는 BI 계층에 도달하기 전에 데이터의 계보 및 사용에 대한 가시성이 없습니다. 이러한 워크로드에 대한 가시성이 없으면 필요한 심층적인 의미론적 이해를 개발할 수 없습니다. 따라서 이러한 자연어 Q&A 기능은 아직 널리 채택되지 않았습니다. 데이터 인텔리전스 플랫폼을 통해 BI 도구는 훨씬 더 풍부한 기능을 위해 기본 AI 모델을 활용할 수 있습니다. 따라서 우리는 이 핵심 기능이 데이터 플랫폼에 탑재될 것이라고 믿습니다.

데이터 인텔리전스 플랫폼으로서의 데이터브릭스

데이터브릭스에서는 데이터 레이크하우스를 기반으로 데이터 인텔리전스 플랫폼을 구축해 왔으며, 개별 기능을 추가하면서 데이터 플랫폼에서 AI의 가능성에 대한 점점 더 큰 기대를 하고 있습니다. 데이터브릭스 레이크하우스의 기존 고유 기능을 기반으로 (1) 데이터와 AI 전반에 걸친 통합 거버넌스 계층과 (2) ETL, SQL, 머신 러닝 및 BI를 아우르는 단일 통합 쿼리 엔진을 갖춘 업계 유일의 데이터 플랫폼을 구축했습니다. 또한 MosaicML 인수를 활용하여 플랫폼의 모든 부분을 지원하는 DatabricksIQ라는 데이터 인텔리전스 엔진 내 AI 모델을 생성하였습니다.

DatabricksIQ는 이미 현재 스택의 많은 계층에 포함되어 있으며, 다음의 용도로 사용됩니다.

컬럼을 자동으로 인덱싱하고, 파티션을 배치하여 레이크하우스의 기초를 더 강하게 만드는 등 플랫폼 전체에 걸쳐 설정을 구성합니다. 이를 통해 고객에게 더 낮은 TCO와 더 나은 성능을 제공할 수 있습니다.
Unity Catalog(UC)의 모든 데이터 자산에 대한 설명과 태그를 자동으로 삽입하여 거버넌스를 개선하는 데 사용됩니다. 그런 다음 전체 플랫폼이 전문 용어, 약어, 메트릭 및 의미를 인식하도록 하는 데 활용됩니다. 이를 통해 더 나은 의미 체계 검색, 더 나은 AI 어시스턴트 품질 및 향상된 거버넌스 기능을 수행할 수 있습니다.
AI 어시스턴트에서 Python 및 SQL 생성을 개선하여 text-to-SQL 및 text-to-Python을 모두 지원합니다.
포톤 쿼리 엔진의 쿼리 실행 계획에 데이터에 대한 예측을 통합하여 이러한 쿼리를 더욱 빠르게 만드는데 사용합니다.
Delta Live Tables 및 서버리스 작업 내에서 최적의 오토 스케일링을 제공해서 워크로드에 대한 예측에 따라 비용을 최소화 합니다.

마지막으로, 아마도 더 중요한 것은 데이터 인텔리전스 플랫폼이 엔터프라이즈 AI 애플리케이션의 개발을 크게 간소화할 것이라는 점입니다. DatabricksIQ를 AI 플랫폼인 Databricks와 직접 통합하여 기업이 데이터를 이해하는 AI 애플리케이션을 쉽게 만들 수 있도록 지원하고 있습니다. Databricks는 이제 엔터프라이즈 데이터를 AI 시스템에 직접 통합할 수 있는 다음과 같은 여러 기능을 제공합니다.

종단간 검색 증강 생성(RAG, Retrieval Augmented Generation)는 "memory"용 데이터브릭스 벡터 데이터베이스를 활용하여 사용자 지정 데이터 기반의 고품질 대화형 에이전트를 구축합니다.
조직의 데이터를 처음부터 학습하거나 MPT 및 Llama 2와 같은 기존 모델을 지속적으로 사전 학습하여 대상 도메인에 대한 심층적인 이해를 바탕으로 AI 애플리케이션을 더욱 향상시킬 수 있습니다.
기업 데이터에 대한 효율적이고 안전한 서버리스 추론을 제공하며 Unity Catalog의 거버넌스 및 품질 모니터링 기능에 연결됩니다.
인기 있는 MLflow 오픈 소스 프로젝트를 기반으로 하는 종단간 MLOps로, 생성된 모든 데이터를 레이크하우스에서 자동으로 실행, 추적 및 모니터링할 수 있습니다.

요약

우리는 AI가 모든 소프트웨어를 혁신시킬 것이며, 데이터 플랫폼은 AI를 통한 혁신이 가장 적합한 영역 중 하나라고 믿습니다. 역사적으로 데이터 플랫폼은 최종 사용자가 접근하기 어려웠고 데이터 팀이 관리 및 통제하기도 어려웠습니다. 데이터 인텔리전스 플랫폼은 이 두 가지 문제를 직접 해결하여 데이터를 훨씬 쉽게 쿼리하고 관리 및 통제할 수 있도록 함으로써 이러한 환경을 혁신할 것입니다. 또한 데이터와 그 사용에 대한 깊은 이해는 해당 데이터에서 작동하는 엔터프라이즈 AI 애플리케이션의 기반이 될 것입니다. AI가 소프트웨어 세계를 재편함에 따라 모든 산업의 리더는 데이터와 AI를 심층적으로 활용하여 조직의 역량을 강화하는 기업이 될 것이라고 믿습니다. 데이터 인텔리전스 플랫폼은 이러한 조직의 초석이 되어 품질, 속도 및 민첩성을 갖춘 차세대 데이터 및 AI 애플리케이션을 만들 수 있도록 지원합니다.

데이터 인텔리전스 플랫폼 (Data Intelligence Platform)

지금까지의 데이터 플랫폼과 그 과제

데이터 인텔리전스 플랫폼의 핵심 아이디어

데이터 인텔리전스 플랫폼으로서의 데이터브릭스

요약

최신 게시물을 이메일로 받아보세요

Sign up