주요 컨텐츠로 이동

데이터 엔지니어링

매일 수천 만 개의 프로덕션 워크로드가 Databricks에서 실행

dataIngestion

데이터 수집 간소화

레이크하우스 플랫폼에 데이터를 입력하고 한 곳에서 분석, AI 및 스트리밍 애플리케이션을 지원해 보세요.Auto Loader는 클라우드 스토리지에 저장되는 파일을 증분 방식으로 자동 처리하므로 상태 정보를 예약 작업이나 연속적 작업으로 관리할 필요가 없습니다. 디렉터리에서 모니터링하지 않아도 새로운 파일을 효율적으로 추적하며(수십억 개까지 확장 가능), 소스 데이터에서 스키마를 자동 추론하여 나중에 변경이 발생하면 그에 맞춰 조정합니다. COPY INTO 명령을 사용하면 애널리스트가 SQL을 통해 손쉽게 Delta Lake로 배치 파일을 수집할 수 있습니다.

“데이터 엔지니어링의 생산성이 40% 향상되어서 새로운 아이디어를 개발하기까지 걸리는 시간이 며칠에서 몇 분으로 단축된 데다, 데이터 가용성과 정확성이 높아졌습니다.”
— Shaun Pearce, 최고 기술 책임자, Gousto

“We’re able to ingest huge amounts of structured and unstructured data coming from different systems, standardize it, and then build ML models that deliver alerts and recommendations that empower employees in our call centers, stores and online.”

— Kate Hopkins, Vice President, AT&T
AT&T logo

Related products

Operate from First Principles

배치와 스트리밍 통합

하나의 통합 API를 사용하는 단일 플랫폼을 통해 사일로를 제거하고 대규모로 배치 및 스트리밍 데이터수집, 변환 및 증분 처리할 수 있습니다.

Raise the Bar

데이터 가치 창출에 집중

Databricks가 인프라와 프로덕션 워크플로의 운영 부문을 자동으로 관리하므로 고객은 툴링이 아니라 가치 창출에 집중할 수 있습니다.

We Put the Company First

원하는 도구와 연결

개방적 레이크하우스 플랫폼에서 데이터 수집, ETL/ELT, 오케스트레이션에 사용하고 싶은 데이터 엔지니어링 도구를 연결하고 사용할 수 있습니다.

multicloud

레이크하우스 플랫폼 기반

레이크하우스 플랫폼은 신뢰할 수 있는 데이터 자산을 구축 및 공유하는 데 가장 적절한 기반을 제공하며, 이러한 데이터 자산은 중앙에서 관리하고 안정적이면서도 매우 빠른 속도를 자랑합니다.

demarketecture

데이터 수집 간소화

자동 ETL 처리

안정적인 워크플로 오케스트레이션

전체적 관찰 기능 및 모니터링

차세대 데이터 처리 엔진

거버넌스, 안정성 및 성능의 기반

dataIngestion

데이터 수집 간소화

레이크하우스 플랫폼에 데이터를 입력하고 한 곳에서 분석, AI 및 스트리밍 애플리케이션을 지원해 보세요.Auto Loader는 클라우드 스토리지에 저장되는 파일을 증분 방식으로 자동 처리하므로 상태 정보를 예약 작업이나 연속적 작업으로 관리할 필요가 없습니다. 디렉터리에서 모니터링하지 않아도 새로운 파일을 효율적으로 추적하며(수십억 개까지 확장 가능), 소스 데이터에서 스키마를 자동 추론하여 나중에 변경이 발생하면 그에 맞춰 조정합니다. COPY INTO 명령을 사용하면 애널리스트가 SQL을 통해 손쉽게 Delta Lake로 배치 파일을 수집할 수 있습니다.

“데이터 엔지니어링의 생산성이 40% 향상되어서 새로운 아이디어를 개발하기까지 걸리는 시간이 며칠에서 몇 분으로 단축된 데다, 데이터 가용성과 정확성이 높아졌습니다.”
— Shaun Pearce, 최고 기술 책임자, Gousto

automated-etl-processing

자동 ETL 처리

파일이 수집되고 나면 분석과 AI에 사용할 수 있도록 가공되지 않은 데이터를 변환해야 합니다. Databricks는 Delta Live Tables(DLT)로 데이터 엔지니어, 데이터 사이언티스트, 애널리스트에게 강력한 ETL 기능을 제공합니다. DLT는 간단한 선언적 방식으로 배치 또는 스트리밍 데이터를 위한 ETL 및 ML 파이프라인을 구축하는 최초의 프레임워크이며, 인프라 관리나 작업 오케스트레이션, 오류 처리, 복구와 같은 운영 복잡성과 성능 최적화를 자동화합니다. DLT를 사용하는 엔지니어는 데이터를 코드로 처리할 수 있고, 테스트, 모니터링 및 문서화 등의 소프트웨어 엔지니어링 모범 사례를 적용하여 대규모로 안정적인 파이프라인을 배포할 수 있습니다.

reliable-workflow

안정적인 워크플로 오케스트레이션

Databricks Workflows는 모든 데이터, 분석, 레이크하우스 플랫폼에 네이티브인 AI에 대한 완전 관리형 오케스트레이션 서비스입니다. Delta Live Tables, Jobs for SQL, Spark, 노트북, dbt, ML 모델 등을 포함한 전체 수명 주기에 대해 다양한 워크로드를 오케스트레이션합니다. 기존 레이크하우스 플랫폼과 긴밀히 통합되므로 모든 클라우드에서 안정적인 프로덕션 워크로드를 생성 및 실행하면서도 최종 사용자에게 간단하게 심층적 중앙 집중형 모니터링을 제공합니다.

"우리의 임무는 지구에 전력을 공급하는 방식을 변화시키는 것입니다. 에너지 부문의 고객은 이러한 변화를 달성하기 위해 데이터, 컨설팅 서비스 및 연구가 필요합니다. Databricks 워크플로는 고객이 필요로 하는 인사이트를 제공할 수 있는 속도와 유연성을 제공합니다."

— Yanyan Wu, 데이터 부문 부사장, Wood Mackenzie

observability

전체적 관찰 기능 및 모니터링

레이크하우스 플랫폼은 모든 데이터와 AI 수명 주기에 대한 가시성을 제공하므로, 데이터 엔지니어와 운영 팀에서 실시간으로 프로덕션 워크플로 상태를 확인하고, 데이터 품질을 관리하며, 과거의 트렌드를 파악할 수 있습니다. Databricks Workflows에서는 프로덕션 작업과 Delta Live Tables 파이프라인의 상태와 성능을 추적하는 데이터 플로 그래프 및 대시보드에 액세스할 수 있습니다. 이벤트 로그는 Delta Lake 테이블로 노출되어, 모든 각도에서 성능과 데이터 품질, 안정성 지표를 모니터링하고 시각화할 수 있습니다.

통합

데이터 팀에 최대의 유연성을 제공할 수 있습니다. Partner Connect기술 파트너 에코시스템을 활용하여 일반적으로 사용하는 데이터 엔지니어링 도구와 매끄럽게 통합해 보세요. 예를 들어 Fivetran으로 비즈니스에 중요한 데이터를 수집하고, dbt로 바로 변환하여, Apache Airflow로 파이프라인을 오케스트레이션할 수 있습니다.

데이터 수집 및 ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

Customers

“Time and time again, we find that even for the most seemingly challenging questions, we can grab a data engineer with no context on the data, point them to a data pipeline and quickly get the answers we need.”
— Barb MacLean, Senior Vice President, Coastal Community Bank

Read the blog

“Delta Live Tables has greatly accelerated our development velocity. In the past, we had to use complicated ETL processes to take data from raw to parsed. Today, we just have one simple notebook that does it, and then we use Delta Live Tables to transform the data to Silver or Gold as needed.”
— Advait Raje, Team Lead, Data Engineering, Trek Bicycle

Read the blog

“We use Databricks Workflows as our default orchestration tool to perform ETL and enable automation for about 300 jobs, of which approximately 120 are scheduled to run regularly.”
— Robert Hamlet, Lead Data Engineer, Enterprise Data Services, Cox Automotive

Read the blog

“Our focus to optimize price/performance was met head-on by Databricks. The Data Intelligence Platform helped us reduce costs without sacrificing performance across mixed workloads, allowing us to optimize data and AI operations today and into the future.”
— Mohit Saxena, Co-founder and Group CTO, InMobi

Read the blog

FAQ

Data engineering is the practice of taking raw data from a data source and processing it so it’s stored and organized for a downstream use case such as data analytics, business intelligence (BI) or machine learning (ML) model training. In other words, it’s the process of preparing data so value can be extracted from it. An example of a common data engineering pattern is ETL (extract, transform, load), which defines a data pipeline that extracts data from a data source, transforms it and loads (or stores) it into a target system like a data warehouse.

Ready to get started?