데이터 엔지니어링

매일 수천 만 개의 프로덕션 워크로드가 Databricks에서 실행

배경 이미지

Databricks 레이크하우스 플랫폼에서 배치 및 스트리밍 데이터를 간편하게 수집하고 변환할 수 있습니다. Databricks에게 인프라의 대규모 자동 관리를 맡기고 안정적인 프로덕션 워크플로를 오케스트레이션하세요. 기본 데이터 품질 테스트 기능과 소프트웨어 개발 모범 사례 지원으로 팀 생산성을 향상할 수 있습니다.

배치와 스트리밍 통합

하나의 통합 API를 사용하는 단일 플랫폼을 통해 사일로를 제거하고 대규모로 배치 및 스트리밍 데이터를 수집, 변환 및 증분 처리할 수 있습니다.

데이터 가치 창출에 집중

Databricks가 인프라와 프로덕션 워크플로의 운영 부문을 자동으로 관리하므로 고객은 툴링이 아니라 가치 창출에 집중할 수 있습니다.

원하는 도구와 연결

개방적 레이크하우스 플랫폼에서 데이터 수집, ETL/ELT, 오케스트레이션에 사용하고 싶은 데이터 엔지니어링 도구를 연결하고 사용할 수 있습니다.

레이크하우스 플랫폼 기반

레이크하우스 플랫폼은 신뢰할 수 있는 데이터 자산을 구축 및 공유하는 데 가장 적절한 기반을 제공하며, 이러한 데이터 자산은 중앙에서 관리하고 안정적이면서도 매우 빠른 속도를 자랑합니다.

배경 이미지

어떻게 작동하나요?

데이터 수집 단순화

자동 ETL 처리

안정적인 워크플로 오케스트레이션

전체적 관찰 기능 및 모니터링

차세대 데이터 처리 엔진

거버넌스, 안정성 및 성능의 기반

데이터 수집 단순화

레이크하우스 플랫폼에 데이터를 입력하고 한 곳에서 분석, AI 및 스트리밍 애플리케이션을 지원해 보세요. Auto Loader는 클라우드 스토리지에 저장되는 파일을 증분 방식으로 자동 처리하므로 상태 정보를 예약 작업이나 연속적 작업으로 관리할 필요가 없습니다. 디렉터리에서 모니터링하지 않아도 새로운 파일을 효율적으로 추적하며(수십억 개까지 확장 가능), 소스 데이터에서 스키마를 자동 추론하여 나중에 변경이 발생하면 그에 맞춰 조정합니다. COPY INTO 명령을 사용하면 애널리스트가 SQL을 통해 손쉽게 Delta Lake로 배치 파일을 수집할 수 있습니다.

자세히

Data Ingestion Code Graphic

자동 ETL 처리

자동 ETL 처리

파일이 수집되고 나면 분석과 AI에 사용할 수 있도록 가공되지 않은 데이터를 변환해야 합니다. Databricks는 Delta Live Tables(DLT)로 데이터 엔지니어, 데이터 사이언티스트, 애널리스트에게 강력한 ETL 기능을 제공합니다. DLT는 간단한 선언적 방식으로 배치 또는 스트리밍 데이터를 위한 ETL 및 ML 파이프라인을 구축하는 최초의 프레임워크이며, 인프라 관리나 작업 오케스트레이션, 오류 처리, 복구와 같은 운영 복잡성과 성능 최적화를 자동화합니다. DLT를 사용하는 엔지니어는 데이터를 코드로 처리할 수 있고, 테스트, 모니터링 및 문서화 등의 소프트웨어 엔지니어링 모범 사례를 적용하여 대규모로 안정적인 파이프라인을 배포할 수 있습니다.

자세히

안정적인 워크플로 오케스트레이션

Databricks Workflows는 모든 데이터, 분석, 레이크하우스 플랫폼에 네이티브인 AI에 대한 완전 관리형 오케스트레이션 서비스입니다. Delta Live Tables, Jobs for SQL, Spark, 노트북, dbt, ML 모델 등을 포함한 전체 수명 주기에 대해 다양한 워크로드를 오케스트레이션합니다. 기존 레이크하우스 플랫폼과 긴밀히 통합되므로 모든 클라우드에서 안정적인 프로덕션 워크로드를 생성 및 실행하면서도 최종 사용자에게 간단하게 심층적 중앙 집중형 모니터링을 제공합니다.

자세히

안정적인 워크플로 오케스트레이션

전체적 관찰 기능 및 모니터링

전체적 관찰 기능 및 모니터링

레이크하우스 플랫폼은 모든 데이터와 AI 수명 주기에 대한 가시성을 제공하므로, 데이터 엔지니어와 운영 팀에서 실시간으로 프로덕션 워크플로 상태를 확인하고, 데이터 품질을 관리하며, 과거의 트렌드를 파악할 수 있습니다. Databricks Workflows에서는 프로덕션 작업과 Delta Live Tables 파이프라인의 상태와 성능을 추적하는 데이터 플로 그래프 및 대시보드에 액세스할 수 있습니다. 이벤트 로그는 Delta Lake 테이블로 노출되어, 모든 각도에서 성능과 데이터 품질, 안정성 지표를 모니터링하고 시각화할 수 있습니다.

차세대 데이터 처리 엔진

Databricks 데이터 엔지니어링은 Apache Spark API와 호환되는 차세대 엔진인 Photon을 기반으로 하여 수천 개의 노드로 자동 확장하면서도 독보적인 가격 대비 성능을 제공합니다. Spark Structured Streaming은 배치 및 스트리밍 처리에 하나의 통합된 API를 제공합니다. 코드를 변경하거나 새로운 기술을 배우지 않고도 레이크하우스에서 손쉽게 스트리밍을 도입할 수 있습니다.

자세히

차세대 데이터 처리 엔진

최첨단 데이터 거버넌스, 안정성 및 성능

최첨단 데이터 거버넌스, 안정성 및 성능

Databricks에서 데이터 엔지니어링을 사용하면 레이크하우스 플랫폼의 기본 구성 요소(Unity Catalog 및 Delta Lake)를 활용할 수 있게 됩니다. ACID 트랜잭션을 통해 안정성을 제공하고 확장 가능한 메타데이터를 매우 빠른 속도로 처리하는 오픈 소스 스토리지 형식인 Delta Lake로 가공되지 않은 데이터를 최적화합니다. 여기에 Unity Catalog를 결합하면 모든 데이터와 AI 자산에 세분화된 거버넌스를 제공할 수 있을 뿐만 아니라, 모든 클라우드에서 일관적인 데이터 탐색, 액세스, 공유 모델을 적용하여 거너번스 방식을 단순화합니다. 또한, Unity Catalog는 다른 조직과 간단하고 안전하게 데이터를 공유할 수 있는 업계 최초의 오픈 프로토콜인 Delta Sharing을 지원합니다.

Delta Live Tables ETL 처리를 위한 현대적 소프트웨어 엔지니어링

자세히

통합

데이터 팀에 최대의 유연성을 제공할 수 있습니다. Partner Connect기술 파트너 에코시스템을 활용하여 일반적으로 사용하는 데이터 엔지니어링 도구와 매끄럽게 통합해 보세요. 예를 들어 Fivetran으로 비즈니스에 중요한 데이터를 수집하고, dbt로 바로 변환하여, Apache Airflow로 파이프라인을 오케스트레이션할 수 있습니다.

데이터 수집 및 ETL

+ 여타 모든 Apache Spark™️ 호환 클라이언트

고객 사례

ADP
Asurion 고객 사례

고객 사례

Shell Logo
"ADP에서는 인적 자원 관리 데이터를 레이크하우스의 통합 데이터 스토어로 마이그레이션하고 있습니다. 우리 팀은 Delta Live Tables를 통해 품질 관리를 구축하는 데 도움을 받았습니다. SQL만 사용해서 배치와 실시간 스트리밍을 지원하는 선언적 API 덕분에 데이터 관리에 들어가는 시간과 노력을 절약할 수 있었습니다."

— Jack Berkowitz, CDO, ADP

yipitdata
Asurion 고객 사례

고객 사례

Shell Logo
“우리 애널리스트들은 Databricks Workflows를 통해 인프라를 관리할 필요 없이 데이터 파이프라인을 쉽게 생성하고 실행하며 모니터링하고 복구합니다. 그 덕분에 우리 고객에게 꼭 필요한 인사이트를 얻을 수 있는 ETL 프로세스를 자율적으로 설계, 개선할 수 있습니다. Airflow 파이프라인을 Databricks Workflows로 옮길 수 있게 되어 만족스럽습니다.”

— Anup Segu, Senior Software Engineer, YipitData

관련 콘텐츠

All the resources you need. All in one place. Image

All the resources you need. All in one place.

Explore the resource library to find eBooks and videos on the benefits of data engineering on Databricks.

시작할 준비가
되셨나요?

시작하기 가이드

AWSAzureGCP