주요 컨텐츠로 이동
Platform blog

Data and AI Summit 2023, Unity Catalog 의 새로운 소식 확인하기

Lakehouse Federation, Governance for AI, Lakehouse Monitoring, Lakehouse Observability 등
이 포스트 공유하기

데이터 관리에 필수적인 거버넌스의 기본 원칙인 책임, 규정 준수, 품질 및 투명성은 이제 AI에도 똑같이 필수적인 요소가 되었습니다. Databricks는 Unity Catalog 를 통해 클라우드와 데이터 플랫폼 전반에서 데이터 및 AI 거버넌스를 위한 업계 유일의 통합 솔루션을 출시하는 선구적인
접근 방식을 취했습니다.

조직은 Unity Catalog를 사용하여 모든 데이터 플랫폼 또는 클라우드에서 파일, 테이블,
ML 모델, 노트북, 대시보드를 안전하게 검색, 액세스, 모니터링 및 협업할 수 있으며, AI를 활용하여 생산성을 높이고 레이크하우스 환경의 잠재력을 최대한 활용할 수 있습니다.

Lakehouse Federation, Governance for AI, AI 기반 거버넌스(Lakehouse Monitoring, Lakehouse Observability) 등을 포함한 분야의 최첨단 발전을 발표하게 되어 기쁩니다.

Databricks Unity Catalog
Databricks Unity Catalog

레이크하우스 Federation
: 데이터가 어디에 있든 데이터를 검색, 관리 및 쿼리합니다. 

Unity Catalog의 Lakehouse Federation 을 통해 조직은 성능이 뛰어나고 안전한
개방형 데이터 메시 아키텍처를 구축할 수 있습니다. 레이크하우스 페더레이션을 통해
조직은 Databricks 내에서 MySQL, PostgreSQL, Amazon Redshift, Snowflake,
Azure SQL Database, Azure Synapse, Google BigQuery 등 다양한 플랫폼에서
모든 데이터에 대해 일관된 데이터 관리, 검색 및 거버넌스 환경을 활용할 수 있습니다.
또한 행 및 열 수준 액세스 제어와 같은 Unity Catalog의 고급 보안 기능과 태그 및
데이터 리니지와 같은 검색 기능이 이러한 외부 데이터 소스로 확장되어 일관된
거버넌스 관행을 보장합니다.

Unity 카탈로그의 쿼리 페더레이션Query Federation in Unity Catalog
Lakehouse Federation in Unity Catalog

AI를 위한 거버넌스
- 데이터와 AI 카탈로그를 한 지붕 아래 통합

또한 Unity Catalog 내에서 거버넌스 모델을 확장하여 통합된 환경에서 AI 자산과 데이터를
포괄적으로 관리할 수 있도록 하고 있습니다. 이러한 통합은 DataOps 및 MLOps 프로세스를
간소화하고 필요한 모든 기능을 중앙 집중식 단일 위치에 통합하여 조직이 AI 규정 준수를
준비할 수 있도록 합니다. 주요 개선 사항은 다음과 같습니다.

Feature Store 및 Unity 카탈로그의 모델 레지스트리

Unity Catalog의 Model Registry 미리 보기를 발표했으며 
Feature Store 공개 및 미리 보기는 7월 말에 제공될 예정입니다.
이 기능을 통해 Unity Catalog는 데이터 및 기능에서 모델에 이르기까지
모든 데이터 및 ML 자산을 하나의 카탈로그로 통합하여 AI 워크플로 전반에
걸쳐 완전한 가시성과 세분화된 액세스 제어를 보장하는 유일한 거버넌스 솔루션입니다.
이 통합 접근 방식은 자동 버전 관리 및 계보 추적, 중앙 집중식 거버넌스, 원활한 워크스페이스 간 협업을 제공하여 MLOps를 간소화하고 생산성을 향상시킵니다. 또한 고급 모니터링 기능을 통해 이제 전체 AI 워크플로에 대한 향상된 가시성, 품질, 이해 및 제어를 경험할 수 있습니다.

Unity 카탈로그에서 데이터와 함께 ML 모델 검색 및 관리Discover and govern ML models along your data in Unity Catalog
Discover and govern ML models along with your data in Unity Catalog

Unity 카탈로그의 볼륨: 테이블 형식이 아닌 데이터 관리
Volumes in Unity Catalog: Govern any non-tabular data

특히 머신 러닝 및 Data Science 워크로드의 경우 이미지, 오디오, 비디오
또는 PDF 파일과 같은 테이블 형식이 아닌 데이터에 액세스해야 하는 많은 사용 사례가 있습니다.

Unity Catalog에서 볼륨을 발표했습니다. 볼륨은 파일 컬렉션을 카탈로그화 하고 비정형, 반정형 및 정형을 포함하여 형식에 관계없이 대규모 데이터 컬렉션을 읽고 처리하는 확장 가능한
파일 기반 응용 프로그램을 빌드하는 데 도움이 되는 새로운 유형의 개체입니다. 이렇게 하면 Unity Catalog의 테이블 형식 데이터와 함께 테이블 형식이 아닌 데이터에 대한 계보를 관리,
제어 및 추적할 수 있습니다. 앞으로 몇 주 안에 공개될 Volumes의 공개 및 미리보기
기대해 주세요!

Unity 카탈로그에서 테이블 형식이 아닌 데이터 관리Govern any non-tabular data in Unity Catalog
Govern any non-tabular data in Unity Catalog

거버넌스를 위한 AI: Lakehouse Monitoring 및 레이크하우스 옵저버빌리티

Unity Catalog는 AI를 위한 강력한 거버넌스 기능을 제공할 뿐만 아니라 AI의 힘을 활용하여
거버넌스 워크플로우를 최적화합니다. 주요 개선 사항은 다음과 같습니다.

Lakehouse Monitoring: 조직의 데이터 및 AI 자산의 품질 모니터링

데이터 및 AI 모델에 대한 신뢰를 보장하는 것은 모든 조직의 성공에 가장 중요합니다.
이 중요한 요구사항을 해결하기 위해 데이터, ML 모델 및 기능을 포함한 전체 데이터 파이프라인을 포괄하는 AI 기반 모니터링 서비스인 Databricks Lakehouse Monitoring를 도입했습니다.

Databricks Lakehouse Monitoring 는 최근 인수한 Okera의 AI 기반 데이터 분류 기술을
사용하여 개인 식별 정보(PII)의 자동 분류 및 식별을 포함하여 데이터 및 ML 모델 파이프라인의
품질 문제 및 오류에 대한 사전 경고를 제공합니다. 또한 데이터 팀은 자동 생성된 대시보드를
통해 포괄적인 데이터 및 ML 품질 보고서를 이해 관계자와 손쉽게 공유할 수 있습니다.

Unity Catalog의 사전 경고
Proactive alerts in Unity Catalog

마지막으로, 데이터팀은 Unity Catalog의 실시간 데이터 계보를 열 수준까지 활용하여 모니터링
보고서에서 식별된 모든 문제에 대한 영향 평가를 효과적으로 디버깅하고 수행할 수 있습니다.
이는 모니터링 및 진단 워크플로를 간소화하여 포괄적인 엔드 투 엔드 솔루션을 제공합니다.

계보를 사용한 근본 원인 및 영향 평가
Root cause and impact assessment using lineage

레이크하우스 Observability
: 레이크하우스의 모든 측면에 대한 시스템 테이블 및 대시보드

옵저버빌리티는 모든 데이터 및 AI 워크로드의 중요한 측면입니다. 이러한 요구 사항을
해결하기 위해 Unity Catalog의 감사, 계보, 과금에 대한 시스템 테이블의 공개 및 미리보기를 발표했으며, 올해 말 추가 테이블이 출시될 예정입니다.

시스템 테이블은 중앙 집중식 분석 저장소 역할을 하며 포괄적인 비용 및 사용량 분석을 제공하여 리소스 소비 및 지출에 대한 귀중한 통찰력을 제공합니다. 또한 시스템 테이블을 통해 사용자는
작업, 노트북, 클러스터링 및 SQL/ML 엔드포인트에 대한 감사 분석을 수행하고 데이터 리니지 및 액세스 권한을 추적할 수 있습니다. 모든 언어를 사용하여 Unity Catalog 에서 시스템
테이블을 쉽게 쿼리할 수 있는 기능을 통해 사용자는 맞춤형 대시보드와 노트북을 구축하고 AI의 힘을 활용하여 운영 데이터를 실행 가능한 비즈니스 인사이트로 변환할 수 있습니다.
마지막으로, 사용자는 DBSQL 경고를 통해 이 인텔리전스를 추가로 운영하여 엔드 투 엔드 지능형 데이터 애플리케이션 수명 주기에 대한 RoI 개선을 체계적으로 추진할 수 있습니다.

레이크하우스 Unity Catalog에서 시스템 테이블을 사용한 Observability
Lakehouse Observability using System Tables in Unity Catalog

레이크하우스의 거버넌스에 대한 추가 개선

행 및 열 수준 데이터 보안

세분화된 수준에서 데이터 보안을 효과적으로 강화하기 위해 Unity Catalog 는 행 필터링 및
열 마스킹을
제공합니다. 사용자는 표준 SQL 함수를 활용하여 행 필터 및 열 마스크를 정의하여
개별 행 및 열 수준에서 세분화된 액세스 제어를 수행할 수 있습니다.
이 기능은  AWS, AzureGCP에서 미리 보기로 제공됩니다.

데이터 분류를 위한 태그

Unity Catalog 는 단순한 검색을 넘어 데이터에 대한 컨텍스트 인사이트를 제공하여 사용자가
작업을 시작하고 분석 및 AI 이니셔티브를 가속화할 수 있도록 합니다. 사용자는 데이터 자산을
쉽게 설명하고 태그를 지정
하여 이해를 높이고, 자산의 인기에 대한 인사이트를 얻고, 도메인
전문가를 식별하고, 자주 사용하는 노트북/쿼리/조인을 식별하여 데이터 보강을 쉽게 만들 수
있습니다. 

Unity Catalog를 통한 데이터 인사이트
Data Insights with Unity Catalog

LakehouseIQ: 비즈니스를 고유하게 이해하는 AI 기반 엔진

또한 비즈니스의 고유한 뉘앙스와 데이터의 복잡한 계층을 학습하여 적시에 적절한 데이터에
원활하게 자연어로 액세스할 수 있도록 하는 지식 엔진인 LakehouseIQ를 발표했습니다.
LakehouseIQ는 AI가 활용하는 메타데이터와 계보를 제공하는 동시에 조직의 내부 보안 및
거버넌스 정책이 일관되게 시행되도록 하는 Unity Catalog기반으로 합니다.

Databricks Unity Catalog시작

Unity Catalog 레이크하우스 아키텍처의 초석으로 채택하면 전체 데이터 및 AI 자산을 포괄하는 유연하고 확장 가능한 거버넌스 구현의 힘을 활용할 수 있습니다. 시작하려면 Unity Catalog AWS, AzureGCP에 사용할 수 있는 가이드를 확인하세요.

Databricks의 공동 창립자 겸 최고 기술 책임자(CTO)인
마테이 자하리아(Matei Zaharia)의 Data+AI Summit 2023 키노트를 시청하여 자세히 알아보세요.

Data + AI Summit에 등록하고 최고의 데이터 및 AI 거버넌스 세션을 살펴보세요. 

 

Databricks 무료로 시작하기

관련 포스트

Platform blog

Unity Catalog의 레이크하우스 페더레이션 기능을 소개합니다

레이크하우스 페더레이션 기능은 현재 퍼블릭 프리뷰(public preview) 단계입니다! 데이터 사용자들은 데이터 파편화, 데이터 통합에 소요되는 시간과 비용, 여러 시스템에 걸친 데이터 거버넌스 관리의...
Platform blog

레이크하우스IQ를 소개합니다: 당신의 비즈니스를 특별히 이해하는 AI 기반의 엔진

오늘, 우리는 비즈니스와 데이터의 고유한 뉘앙스를 학습하여 다양한 사용 사례에 자연어로 액세스할 수 있도록 지원하는 지식 엔진인 레이크하우스 IQ를 발표하게 되어 매우 기쁩니다...
Platform blog

레이크하우스의 데이터 공유 및 협업 기능의 새로운 기능

데이터브릭스는 데이터, 분석, AI 전반에 걸쳐 데이터 공유 및 협업 을 위한 최초의 오픈 소스 접근 방식을 제공합니다. 고객은 공급업체에 종속되지 않고 플랫폼...
Platform blog

개방형 Apache Hive Metastore API로 데이터브릭스 Unity Catalog 확장하기

데이터브릭스 Unity Catalog용 Hive 메타스토어 인터페이스(이하 HMS 인터페이스)가 프리뷰(preview)로 발표되었습니다. Apache Hive는 업계에서 가장 널리 지원되는 카탈로그 인터페이스로, 거의 모든 주요 컴퓨팅 플랫폼에서...
모든 플랫폼 블로그 포스트 보기