주요 컨텐츠로 이동

Lakeflow와 Agent Bricks를 활용한 AI 우선 데이터 엔지니어링

Lakeflow와 Agent Bricks가 ETL 파이프라인의 모든 단계에 AI 기반 자동화를 구현하는 방법

screenshot of AI functions

발행일: 2026년 2월 24일

제품2 min read

Summary

  • Lakeflow는 Agent Bricks AI functions를 사용하여 ETL에서 AI 모델을 활용하고 프로덕션화할 수 있게 해주는 AI 우선 데이터 엔지니어링 플랫폼을 제공합니다.
  • 데이터 엔지니어는 Lakeflow Jobs를 사용하여 대규모로 AI 모델을 손쉽게 오케스트레이션하고 엔터프라이즈 컨텍스트 내에서 ETL 파이프라인을 자동화할 수 있습니다.
  • 퍼지 매칭부터 데이터 추출 및 요약에 이르기까지 Lakeflow Jobs 사용자는 파이프라인 사용 사례를 활용하고 다운스트림 분석, BI 및 ML 사용 사례를 지원할 수 있는 새로운 주요 인사이트를 추출할 수 있습니다.

데이터 엔지니어는 새로운 복잡성을 도입하지 않으면서 AI를 사용하여 ETL을 개선하고 신뢰할 수 있는 프로덕션 등급의 파이프라인을 구축하는 핵심 문제에 점점 더 집중하고 있습니다. 분리된 도구를 추가하거나 컨텍스트를 제거하지 않고 워크플로를 간소화하면서 실제로 성과를 제공하는 AI가 필요합니다.

Databricks Lakeflow 는 보안 AI가 내장된 통합 데이터 엔지니어링 플랫폼으로, 전체 데이터 처리를 자동화하고 더 많은 인사이트를 확보하며 더 광범위한 비즈니스 문제를 지원합니다. AI가 생성한 파이프라인 코드를 사용하든 AI 워크로드를 오케스트레이션하든, Lakeflow를 활용하는 데이터 엔지니어는 수동적인 연결 작업에 시간을 낭비하는 대신 비즈니스에 실질적인 영향을 미치는 전략적이고 더 가치 있는 패턴에 집중할 수 있습니다.

이 블로그에서는 데이터 파이프라인에 AI 모델을 구현하여 비즈니스 인사이트를 자동으로 확보함으로써 AI 모델을 제품화하고 확장하는 방법을 살펴보겠습니다.

대규모 데이터에서 손쉽게 더 많은 인사이트를 추출하세요

데이터 팀은 계약서, 인보이스, 스크립트, 리뷰 등 비정형 입력으로 어려움을 겪고 있습니다. 이러한 데이터를 처리하려면 종종 불안정한 NLP 모델, 엄격한 규칙 또는 수동 정리를 모두 힘겹게 다루어야 합니다. 그 결과 엔지니어는 영향력을 창출하는 대신 반복적인 파싱에 시간을 낭비하고, 신뢰할 수 없는 결과물과 느린 처리 시간으로 인해 귀중한 인사이트가 문서 안에 갇히게 됩니다.

Databricks Lakeflow를 사용하면 Databricks Agent Bricks AI Functions를 통해 기존 워크플로에 AI 기반 변환을 원활하게 통합하여 이 문제를 해결할 수 있습니다. 이러한 함수를 사용하면 고품질 AI를 ETL 프로세스에 직접 통합하여 비정형 및 정형 데이터의 추출, 변환, 분류를 대규모로 자동화할 수 있습니다.

Agent Bricks 에는 선택할 수 있는 여러 유형의 AI 기능이 있습니다. 그중 일부는 프롬프트가 필요하지 않고 다음과 같이 특정 작업에 맞춰져 있습니다.

  • ai_extract : 제공하는 레이블을 기반으로 입력 텍스트에서 특정 엔터티를 추출합니다. 예: 사람, 위치, 조직
  • ai_classify : 제공된 레이블에 따라 입력 텍스트를 분류합니다. 예를 들어 '긴급'과 '긴급하지 않음' 또는 주제 카테고리로 분류할 수 있습니다.
  • ai_translate : 텍스트를 지정된 대상 언어로 번역합니다.

최근에 출시된 AI 기능 ai_parse_document는 모든 비정형 데이터를 필요한 정형화된 형식으로 변환하는 데 사용할 수 있어 특히 기대를 모으고 있습니다. 멀티모달 파운데이션 모델을 사용하는 ai_parse_doc를 사용하면 텍스트를 파싱하고, 테이블을 추출하고, 그림을 추론하고, 이미지를 AI 생성 설명으로 전환할 수 있습니다. 이 기능은 이전에는 분석이 거의 불가능했던 데이터를 처리할 수 있는 새로운 가능성을 열어줍니다. 여기에서 자세히 알아보세요

ai_parse_document

또한 서버리스 배치 추론  플랫폼으로 구동되는 ai_query() 라는더 일반적인 함수도 제공합니다. 이 함수를 사용하면 원하는 LLM을 사용하여 대규모 데이터세트에서 AI 기반 변환을 한 번에 실행할 수 있습니다.

수백만 개의 행에 대한 성능을 극대화하기 위해 당사의 서버리스 배치 추론 엔진은 컴퓨팅 리소스를 자동으로 프로비저닝 및 확장하고 워크로드를 병렬로 실행합니다. 이를 통해 요청당 오버헤드를 제거하고 훨씬 빠른 처리를 제공하여 실행 시간을 몇 시간에서 몇 분으로 단축하는 동시에 대용량 AI 워크로드의 비용 효율성을 개선합니다.

Lakeflow를 사용하면 Lakeflow Jobs를 사용하여 데이터 엔지니어링 솔루션에서 AI 모델을 쉽게 프로덕션화하고 기본적으로 오케스트레이션할 수 있습니다. AI 함수를 사용하면 오케스트레이션의 효율성을 더욱 높이고 다음과 같은 더 많은 사용 사례를 활용할 수 있습니다.

  • 새로운 데이터 생성. AI를 사용하여 고객 인사이트에 대한 요약을 작성하여 보고를 가속화하거나 미래 수익을 예측할 수 있습니다.
  • 데이터를 구조화하고 정리 하여 비즈니스에 의미 있는 특정 카테고리로 분류합니다. 수백만 개의 다국어 리뷰에 대한 감성 분석을 실행하거나 자연어 프롬프트를 사용하여 대규모로 고객 세분화를 자동화합니다.
  • 데이터 품질 개선. 퍼지 매칭 및 엔티티 확인을 사용하여 대규모로 중복 및 불일치를 수정하세요.

Lakeflow와 Agent Bricks를 결합하면 단일화된 거버넌스 데이터 플랫폼에서 AI 모델을 실행할 수 있으므로 AI와 AI가 추출하는 인사이트에 올바른 비즈니스 및 엔터프라이즈 컨텍스트가 적용됩니다.

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

AI functions 및 Lakeflow의 실용적인 사용 사례

  • 예시 1: 원시 통화 기록을 비즈니스 인사이트로 전환하기

영업팀이 길고 비정형적인 통화 기록을 명확하고 실행 가능한 요약으로 변환하는 신뢰할 수 있는 방법이 필요하다고 상상해 보세요. 하루에 수백 건의 통화가 있고 그중 다수는 45분에서 60분 동안 지속되므로 수동 검토는 금방 불가능해집니다.

Databricks를 사용하면 내장된 AI 함수를 활용하여 모든 스크립트를 쉽고 빠르게 분석하고, 핵심 인사이트를 추출하며, 후속 조치 권장 사항을 생성할 수 있습니다. 

별도의 AI 서비스를 구축하거나 사용자 지정 에이전트를 관리하는 대신, 쿼리를 작성하여 Lakeflow Jobs를 사용하는 오케스트레이터의 일부로 실행하기만 하면 됩니다. 그러면 AI 모델이 거버넌스가 적용되는 통합 데이터 엔지니어링 플랫폼에 직접 구현되며, 여기서 적절한 비즈니스 및 엔터프라이즈 컨텍스트를 유지하면서 기존 영업 파이프라인 워크플로와 완전히 통합된 상태를 유지하는 확장 가능한 배치 처리를 이용할 수 있습니다.

이것이 실제로 어떻게 작동하는지 살펴보겠습니다. 통화 기록을 파이프라인으로 수집한 후 AI 함수를 적용하여 구조화되지 않은 텍스트를 사용 가능한 신호로 변환할 수 있습니다.

  • ai_analyze_sentiment 를 사용하여 통화의 전반적인 감정(긍정적, 부정적, 중립적)을 파악합니다
  • ai_extract 를 사용하여 고객 이름, 회사 이름, 직책, 전화번호 등 통화에서 주요 정보를 추출합니다.
  • ai_classify 통화 유형(긴급성, 주제 등)을 분류합니다.

이를 통해 다운스트림 분석 및 자동화를 위한 구조화된 기반을 확보할 수 있습니다.

다음으로, ai_query 를 사용하여 선택한 AI 모델(이 예에서는 "databricks-meta-llama-3-3-70b-instruct" LLM을 사용)로 각 통화를 요약합니다.

이 쿼리는 영업팀과 고객 관리팀이 한눈에 검토할 수 있는 일관성 있는 고품질 요약을 생성합니다.

그런 다음 동일한 워크플로에서 개인화된 후속 조치를 생성할 수 있습니다.

이 메모는 CRM 또는 영업 도구로 대규모로 직접 푸시할 수 있으므로 팀은 통화가 끝난 직후에 취해야 할 올바른 조치를 정확히 알 수 있습니다. 또한 해당 메모를 BI 팀과 공유하여 격차를 발견하고 전반적인 고객 서비스 경험을 개선하는 데 도움을 줄 수 있습니다. 

  • 예시 2: 보험금 청구 처리 간소화

더 빠르고 일관된 승인이 필요한 보험사를 위해 청구 처리 파이프라인을 구축한다고 상상해 보세요. 오늘날에는 스캔한 문서, 사진, PDF 등 비정형 첨부 파일이 포함된 청구가 이메일로 접수되는 경우가 많아 대규모로 수집하고 처리하기가 어렵습니다. 

Agent Bricks와 Lakeflow를 사용하면 데이터 엔지니어는 ETL 파이프라인의 일부로 ai_parse_documentai_query 를 사용하여 수신 이메일의 데이터를 자동으로 추출, 정규화 및 통합할 수 있습니다. 이를 통해 수동 검토를 줄이고 의사 결정을 가속화하며 기존 데이터 워크플로에 원활하게 통합되는 신뢰할 수 있는 엔드투엔드 자동화가 가능합니다.

작동 방식은 다음과 같습니다.

Lakeflow와 Agent Bricks를 사용하여 이메일 파일을 레이크하우스로 수집한 다음 필요한 데이터를 추출 할 수 있습니다.

  • ai_query 를 사용하여 이메일 본문을 읽고 주요 정보(예: 이름, 생년월일, 주소, 사회 보장 번호)를 추출합니다.
  • ai_query 를 들어오는 이미지 유형을 구체적으로 읽을 수 있는 모델과 함께 사용하세요. 이 AI 함수는 첨부된 이미지를 설명하는 텍스트를 생성하고 메타데이터를 추출합니다. 다음은 해당 함수의 SQL 쿼리 예시입니다.
  • 그리고 ai_parse_document 를 사용하여 이메일에 첨부된 모든 PDF(jpg 또는 png)를 읽습니다

데이터가 추출되면 사용 사례에 따라 ai_query를 다시 사용하여 모든 정보를 파일로 통합할 수 있습니다. 이 파일은 다른 워크플로에서 재사용하거나 다운스트림 팀(BI 분석가, AI/ML 팀 등)에 직접 공유할 수 있습니다. 

아래는 Lakeflow Jobs에서 해당 워크플로가 어떻게 보일지에 대한 DAG 예시입니다.

Lakeflow와 Agent Bricks를 결합하여 할 수 있는 일은 훨씬 더 많습니다. 이 동영상을 확인 하여 지저분한 영업 데이터를 AI 기반 마케팅 캠페인으로 전환하는 방법을 알아보세요.

Databricks AI의 실제 적용 사례 

많은 Databricks 고객과 데이터 엔지니어는 AI와 Lakeflow를 사용하여 가격 책정, 고객 성공, 마케팅 등 다양한 비즈니스 문제를 성공적으로 해결하고 인사이트를 확보하며 생산성을 높였습니다.

Kard는 뉴욕에 본사를 둔 핀테크 회사로, Agent Bricks AI 기능 을 사용하여 수동적이고 일관성 없는 기존 방법을 대체하는 확장 가능하고 정확한 거래 분류 시스템을 지원 합니다. 이러한 현대적인 접근 방식을 통해 Kard는 수십억 건의 거래를 효율적으로 처리하고, 맞춤형 리워드를 제공하며, 충성도와 비즈니스 가치를 높이는 더 풍부한 인사이트를 제공할 수 있습니다.

라틴 아메리카 최대 은행 중 하나인 Banco Bradesco의 데이터 엔지니어링 팀은 긴 코딩, 디버깅, 문서화 프로세스로 인해 생산성 병목 현상에 직면했습니다. Databricks Assistant를 도입하여 코딩 시간을 50% 단축하고, 기술 사용자와 비기술 사용자 모두가 자연어를 사용하여 코드를 생성하고 문제를 해결할 수 있도록 지원함으로써 데이터 액세스를 민주화하고 비용을 절감하며 데이터 기반 의사 결정을 가속화했습니다.

Locala는 글로벌 옴니채널 광고 플랫폼으로, 이전 스케줄러인 Airflow가 처리할 수 없었던 복잡한 LLM 학습 파이프라인을 오케스트레이션하기 위해 Lakeflow Jobs를 사용했습니다. ETL, 모델 학습 및 실험, 컴퓨팅 선택을 간소화함으로써 Lakeflow Jobs는 복잡한 워크플로 관리의 운영 부담을 제거 했고, 덕분에 데이터 과학자 한 명이 애드테크 회사의 핵심 영업 기능이 된 GenAI Assistant를 구축할 수 있었습니다.

Lakeflow를 사용하면 AI 기능을 데이터 엔지니어링 플랫폼에 쉽게 통합하고 AI 워크플로를 오케스트레이션하여 데이터 프로세스를 더욱 효율적이고, 인사이트 중심적이며, 접근하기 쉽게 만들 수 있습니다. 그리고 앞으로 더 많은 기능이 제공될 예정입니다! 곧 Databricks Genie를 사용하여 자연어 처리로 데이터 엔지니어링 플랫폼의 파이프라인을 작성하고 디버깅할 수 있게 됩니다. 

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

Predictive Optimization at Scale: A Year of Innovation and What’s Next

제품

2026년 2월 18일/1분 이내 소요

대규모 예측 최적화: 혁신의 한 해와 다음 단계

Custom Agents now available on Databricks

제품

2026년 2월 18일/1분 이내 소요

이제 Databricks에서 Custom Agents를 사용할 수 있습니다.