주요 컨텐츠로 이동

데이터 엔지니어링

매일 수천 만 개의 프로덕션 워크로드가 Databricks에서 실행

data-engineering-header

Databricks 레이크하우스 플랫폼에서 배치 및 스트리밍 데이터를 간편하게 수집하고 변환할 수 있습니다. Databricks에게 인프라의 대규모 자동 관리를 맡기고 안정적인 프로덕션 워크플로를 오케스트레이션하세요. 기본 데이터 품질 테스트 기능과 소프트웨어 개발 모범 사례 지원으로 팀 생산성을 향상할 수 있습니다.

Operate from First Principles

배치와 스트리밍 통합

하나의 통합 API를 사용하는 단일 플랫폼을 통해 사일로를 제거하고 대규모로 배치 및 스트리밍 데이터수집, 변환 및 증분 처리할 수 있습니다.

Raise the Bar

데이터 가치 창출에 집중

Databricks가 인프라와 프로덕션 워크플로의 운영 부문을 자동으로 관리하므로 고객은 툴링이 아니라 가치 창출에 집중할 수 있습니다.

We Put the Company First

원하는 도구와 연결

개방적 레이크하우스 플랫폼에서 데이터 수집, ETL/ELT, 오케스트레이션에 사용하고 싶은 데이터 엔지니어링 도구를 연결하고 사용할 수 있습니다.

multicloud

레이크하우스 플랫폼 기반

레이크하우스 플랫폼은 신뢰할 수 있는 데이터 자산을 구축 및 공유하는 데 가장 적절한 기반을 제공하며, 이러한 데이터 자산은 중앙에서 관리하고 안정적이면서도 매우 빠른 속도를 자랑합니다.

“우리에게 Databricks는 모든 ETL 작업을 처리하는 원스톱 샵이 되었습니다. 레이크하우스 플랫폼을 많이 사용할수록 사용자와 플랫폼 관리자 모두에게 훨씬 편리해집니다.”

— Hillevi Crognale, 엔지니어링 관리자, YipitData

어떻게 작동하나요?

demarketecture

데이터 수집 간소화

자동 ETL 처리

안정적인 워크플로 오케스트레이션

전체적 관찰 기능 및 모니터링

차세대 데이터 처리 엔진

거버넌스, 안정성 및 성능의 기반

dataIngestion

데이터 수집 간소화

레이크하우스 플랫폼에 데이터를 입력하고 한 곳에서 분석, AI 및 스트리밍 애플리케이션을 지원해 보세요.Auto Loader는 클라우드 스토리지에 저장되는 파일을 증분 방식으로 자동 처리하므로 상태 정보를 예약 작업이나 연속적 작업으로 관리할 필요가 없습니다. 디렉터리에서 모니터링하지 않아도 새로운 파일을 효율적으로 추적하며(수십억 개까지 확장 가능), 소스 데이터에서 스키마를 자동 추론하여 나중에 변경이 발생하면 그에 맞춰 조정합니다. COPY INTO 명령을 사용하면 애널리스트가 SQL을 통해 손쉽게 Delta Lake로 배치 파일을 수집할 수 있습니다.

“데이터 엔지니어링의 생산성이 40% 향상되어서 새로운 아이디어를 개발하기까지 걸리는 시간이 며칠에서 몇 분으로 단축된 데다, 데이터 가용성과 정확성이 높아졌습니다.”
— Shaun Pearce, 최고 기술 책임자, Gousto

automated-etl-processing

자동 ETL 처리

파일이 수집되고 나면 분석과 AI에 사용할 수 있도록 가공되지 않은 데이터를 변환해야 합니다. Databricks는 Delta Live Tables(DLT)로 데이터 엔지니어, 데이터 사이언티스트, 애널리스트에게 강력한 ETL 기능을 제공합니다. DLT는 간단한 선언적 방식으로 배치 또는 스트리밍 데이터를 위한 ETL 및 ML 파이프라인을 구축하는 최초의 프레임워크이며, 인프라 관리나 작업 오케스트레이션, 오류 처리, 복구와 같은 운영 복잡성과 성능 최적화를 자동화합니다. DLT를 사용하는 엔지니어는 데이터를 코드로 처리할 수 있고, 테스트, 모니터링 및 문서화 등의 소프트웨어 엔지니어링 모범 사례를 적용하여 대규모로 안정적인 파이프라인을 배포할 수 있습니다.

reliable-workflow

안정적인 워크플로 오케스트레이션

Databricks Workflows는 모든 데이터, 분석, 레이크하우스 플랫폼에 네이티브인 AI에 대한 완전 관리형 오케스트레이션 서비스입니다. Delta Live Tables, Jobs for SQL, Spark, 노트북, dbt, ML 모델 등을 포함한 전체 수명 주기에 대해 다양한 워크로드를 오케스트레이션합니다. 기존 레이크하우스 플랫폼과 긴밀히 통합되므로 모든 클라우드에서 안정적인 프로덕션 워크로드를 생성 및 실행하면서도 최종 사용자에게 간단하게 심층적 중앙 집중형 모니터링을 제공합니다.

"우리의 임무는 지구에 전력을 공급하는 방식을 변화시키는 것입니다. 에너지 부문의 고객은 이러한 변화를 달성하기 위해 데이터, 컨설팅 서비스 및 연구가 필요합니다. Databricks 워크플로는 고객이 필요로 하는 인사이트를 제공할 수 있는 속도와 유연성을 제공합니다."

— Yanyan Wu, 데이터 부문 부사장, Wood Mackenzie

observability

전체적 관찰 기능 및 모니터링

레이크하우스 플랫폼은 모든 데이터와 AI 수명 주기에 대한 가시성을 제공하므로, 데이터 엔지니어와 운영 팀에서 실시간으로 프로덕션 워크플로 상태를 확인하고, 데이터 품질을 관리하며, 과거의 트렌드를 파악할 수 있습니다. Databricks Workflows에서는 프로덕션 작업과 Delta Live Tables 파이프라인의 상태와 성능을 추적하는 데이터 플로 그래프 및 대시보드에 액세스할 수 있습니다. 이벤트 로그는 Delta Lake 테이블로 노출되어, 모든 각도에서 성능과 데이터 품질, 안정성 지표를 모니터링하고 시각화할 수 있습니다.

next-generation

차세대 데이터 처리 엔진

Databricks 데이터 엔지니어링은 Apache Spark API와 호환되는 차세대 엔진인 Photon을 기반으로 하여 수천 개의 노드로 자동 확장하면서도 독보적인 가격 대비 성능을 제공합니다.Spark Structured Streaming은 배치 및 스트리밍 처리에 하나의 통합된 API를 제공합니다. 코드를 변경하거나 새로운 기술을 배우지 않고도 레이크하우스에서 손쉽게 스트리밍을 도입할 수 있습니다.

state-of-the-art

최첨단 데이터 거버넌스, 안정성 및 성능

Databricks에서 데이터 엔지니어링을 사용하면 레이크하우스 플랫폼의 기본 구성 요소(Unity Catalog 및 Delta Lake)를 활용할 수 있게 됩니다. ACID 트랜잭션을 통해 안정성을 제공하고 확장 가능한 메타데이터를 매우 빠른 속도로 처리하는 오픈 소스 스토리지 형식인 Delta Lake로 가공되지 않은 데이터를 최적화합니다. 여기에 Unity Catalog를 결합하면 모든 데이터와 AI 자산에 세분화된 거버넌스를 제공할 수 있을 뿐만 아니라, 모든 클라우드에서 일관적인 데이터 탐색, 액세스, 공유 모델을 적용하여 거너번스 방식을 단순화합니다. 또한, Unity Catalog는 다른 조직과 간단하고 안전하게 데이터를 공유할 수 있는 업계 최초의 오픈 프로토콜인 Delta Sharing을 지원합니다.

Databricks로 마이그레이션

데이터 사일로, 느린 성능, Hadoop이나 엔터프라이즈 데이터 웨어하우스에서 발생하는 높은 비용에 지치셨나요? 모든 데이터, 분석 및 AI 사용 사례를 위한 현대적 플랫폼, Databricks 레이크하우스로 마이그레이션하세요.

Databricks로 마이그레이션

통합

데이터 팀에 최대의 유연성을 제공할 수 있습니다. Partner Connect기술 파트너 에코시스템을 활용하여 일반적으로 사용하는 데이터 엔지니어링 도구와 매끄럽게 통합해 보세요. 예를 들어 Fivetran으로 비즈니스에 중요한 데이터를 수집하고, dbt로 바로 변환하여, Apache Airflow로 파이프라인을 오케스트레이션할 수 있습니다.

데이터 수집 및 ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

+ 여타 모든 Apache Spark™️ 호환 클라이언트

고객 사례

comcast
hsbc
laliga
atlassian
columbia
comcast
hsbc
laliga
atlassian
columbia
comcast

더 자세히 알아보기

Delta

Delta Lake

Partner Connect

워크플로우

Unity

Delta Live 테이블

icon-orange-Collaborative-min

Delta Sharing

관련 콘텐츠