주요 컨텐츠로 이동

레이크하우스의 데이터 카탈로그화

플랫폼 전반에 걸쳐 원활한 액세스를 제공하려면 강력한 카탈로그 서버가 필요합니다.

AWS 글루를 카탈로그로 사용 Databricks

모든 서비스에서 데이터를 검색하려면 데이터를 찾고 액세스할 수 있는 강력한 카탈로그가 필요합니다. AWS Glue 서비스는 AWS 서비스, 애플리케이션 또는 AWS 계정 간에 테이블 메타데이터를 쉽게 공유할 수 있는 Apache 호환 Hive 서버리스 메타스토리지입니다. Databricks 및 Delta Lake 은 AWS Glue와 통합되어 조직에서 데이터를 검색하고 Delta Lake 에 데이터를 등록하고 Databricks 인스턴스 간에 데이터를 검색할 수 있습니다.

장점

Databricks는 AWS Glue와 사전 통합되어 제공됩니다.

Icon Graphic

심플

AWS 여러 Databricks 워크스페이스에서 동일한 글루 카탈로그를 사용하여 관리 편의성을 간소화합니다.

home icon

보호

AWS Glue의 메타데이터에 ID 및 액세스 관리 자격 증명 통과를 사용하여 통합 보안을 제공합니다. 자세한 설명은 자격증명 통과를 소개하는Databricks 블로그를 참조 하세요.Databricks AWS IAM

Icon Graphic

협업

Amazon 서비스 전반의 메타데이터에 더 쉽게 액세스하고 AWS Glue의 데이터 카탈로그에 액세스할 수 있습니다.

Databricks Delta AWS 핵심 서비스와의 레이크 통합

이 레퍼런스 구현은 가장 복잡한 데이터 레이크 문제를 해결하는 데 도움이 되는 독보적인 위치의 Databricks Delta Lake와 AWS 핵심 서비스의 통합을 보여줍니다. Delta Lake는 S3를 기반으로 실행되며, Amazon Kinesis, AWS Glue, Amazon Athena, Amazon Redshift 및 Amazon QuickSight 등과 통합되어 있습니다.

Delta Lake 을 처음 사용하는 경우 여기에서 자세히 알아볼 수 있습니다.

delta-lake-code-imgs
icon-orange-hive-metastore-execution

델타 레이크에 대한 Amazon 아테나 및 프레스토 지원

매니페스트 파일을 사용하여 Hive metastore 에 외부 테이블을 정의하면 Presto와 Amazon Athena는 디렉토리 목록으로 파일을 찾는 대신 매니페스트 파일에 있는 파일 목록을 사용할 수 있습니다. 이러한 테이블은 Parquet과 같은 형식으로 데이터가 저장된 테이블과 마찬가지로 쿼리할 수 있습니다.

글루와 통합하기 Databricks AWS

1단계

글루 카탈로그에 액세스하도록 Databricks 클러스터를 구성하는 방법 AWS

시작

먼저 Databricks 계산 클러스터를 필요한 AWS Glue Catalog IAM 역할과 함께 실행합니다. IAM 역할 및 정책 요구 사항은 Databricks AWS Glue as Metastore 문서에 단계별로 명확하게 설명되어 있습니다.

이 예제에서는 내 S3 버킷에 대한 액세스 권한이 위임된 Field_Glue_Role이라는 AWS IAM 역할을 생성합니다. 데모 동영상에 설명된 대로 클러스터 구성에 역할을 연결합니다.

데모 동영상 보기

delta-lake-code-imgs

업데이트

다음으로, 업데이트 방법 동영상에 나와 있는 대로 클러스터를 시작하기 전에 클러스터 구성의 Spark 구성 속성을 설정해야 합니다.

Databricks 클러스터 Spark 구성 속성 업데이트 방법 보기

delta-lake-code-imgs

2단계

노트북을 사용하여 AWS Glue 데이터베이스 설정하기 Databricks

첨부

AWS Glue 데이터베이스를 만들기 전에 이전 단계에서 만든 클러스터를 노트북에 연결하고 여기에 표시된 명령으로 설정을 테스트합니다.

유효성 검사

그런 다음 AWS Glue 콘솔을 사용하여 동일한 데이터베이스 목록이 표시되는지 확인하고 데이터베이스를 나열합니다.

확인

노트북에서 직접 새 AWS Glue 데이터베이스를 생성하고 SHOW DATABASES를 다시 발행하여 새 AWS Glue 데이터베이스가 성공적으로 생성되었는지 확인합니다. 데이터 창을 통해서도 AWS Glue 데이터베이스를 볼 수 있습니다.

3단계

동일한 메타스토어를 사용하여 Delta Lake 테이블과 매니페스트 파일을 생성합니다.

생성 및 카탈로그 작성

노트북에서 직접 테이블을 생성하고 AWS Glue 데이터 카탈로그로 카탈로그화하세요. 크롤러를 사용하여 테이블을 생성하고 카탈로그화하려면 AWS Glue 데이터 카탈로그 채우기를 참조하세요.

여기서의 데모 데이터 세트는 MovieLens라는 영화 추천 사이트에서 가져온 것으로, 영화 등급으로 구성되어 있습니다. DataFrame 이 Python 코드로 을 만듭니다.

등록

그런 다음 DataFrame 을 임시 테이블로 등록하고 다음 SQL 명령을 사용하여 액세스합니다.

Delta Lake

이제 이전 단계에서 만든 임시 테이블과 이 SQL 명령을 사용하여 Delta Lake 테이블을 만듭니다.

Delta Lake 참고: 빠른 시작가이드에 설명된 대로 테이블을 만드는 것은 매우 쉽습니다.Delta Lake

Amazon Athena용 적하목록 생성하기

이제 다음 단계에 따라 Amazon Athena에 필요한 매니페스트 파일을 생성합니다.

1. 이 Scala 메서드를 실행하여 매니페스트를 생성합니다. , 또는 R 노트북을 만든 경우 셀 앞에 %scala 을 붙이는 것을 잊지 Python 마세요. SQL

2.Hive metastore 특수 형식 SymlinkTextInputFormat과 매니페스트 파일 위치를 사용하여 Athena에 연결된 에 테이블을 생성합니다.

샘플 코드에서 매니페스트 파일은 s3a://aws-airlifts/movies_delta/_symlink_format_manifest/ 파일 위치에 생성됩니다.

4단계

아테나를 Delta Lake 사용하여 테이블 쿼리하기 Amazon

Amazon 아테나

아테나는 관리 및 유지보수를 위한 인프라가 필요 없는 서버리스 서비스입니다. 따라서 클러스터를 Delta 실행할 필요 없이 테이블을 쿼리할 수 Databricks 있습니다.

Amazon Athena 콘솔에서 데이터베이스를 선택한 다음 비디오에 표시된 대로 테이블을 미리 봅니다.

video_thumb

결론

AWS Glue를 통합하면 AWS 에코시스템을 사용하는 모든 기업에게 강력한 서버리스 메타스토어 전략을 제공할 수 있습니다. Delta Lake로 데이터 레이크의 안정성을 높이고 Amazon Athena와 통합하여 서버리스 데이터 액세스를 원활하게 제공하세요. Databricks 레이크하우스 플랫폼은 AWS 데이터 분석가, 데이터 엔지니어 및 이 data scientists 성능과 안정성을 갖춘 데이터에 액세스할 수 있도록 지원하는 데이터 레이크 전략( )을 뒷받침합니다.

리소스

동영상

ty-tn

블로그

ty-tn

고객 사례

OG

시작할 준비가 되셨나요?