주요 컨텐츠로 이동
솔루션

Daikin Applied Americas가 Genie Code를 통해 대규모로 일관된 데이터 파이프라인을 구축하는 방법

재사용 가능한 스킬, 메달리온 패턴, 공유 정의를 활용하여 일관성 있고 프로덕션에 바로 사용할 수 있는 파이프라인을 더 빠르게 구축해 보세요.

작성자: Trent Lezer , James VanGordon

  • Daikin Applied Americas는 증가하는 엔터프라이즈 분석 및 AI 요구 사항을 지원하기 위해 데이터 엔지니어링 운영 모델을 재설계했습니다.
  • 팀은 재사용 가능한 MECE 기술, 메달리온 아키텍처 및 공유된 비즈니스 정의를 사용하여 파이프라인 개발을 표준화했습니다.
  • 이 접근 방식을 통해 여러 팀에 걸쳐 더 빠른 인도, 향상된 일관성 및 확장 가능한 거버넌스를 실현할 수 있습니다.

에이전트 기반 데이터 엔지니어링이 파이프라인 구축 방식을 바꾸고 있습니다

Daikin Applied Americas (DAA)는 북미 전역에서 상업용 HVAC 시스템을 제조 및 서비스합니다. 이는 장비 텔레메트리 및 공급망 데이터부터 현장 서비스 기록에 이르기까지, 여러 시스템에 걸친 대규모의 운영, 제조 및 서비스 데이터를 관리하는 것을 의미합니다.

데이터 팀은 엔지니어링, 운영, 고객 서비스 전반에서 분석 및 AI 사용 사례를 지원하며, 이 모든 것은 신뢰할 수 있고 잘 구조화된 파이프라인에 의존합니다.

이러한 요구가 증가함에 따라 더 많은 파이프라인, 더 많은 사용 사례, 팀 간의 더 많은 협업이 필요해지면서 데이터 팀의 부담도 커졌습니다. 이를 해결하기 위해 팀은 파이프라인을 설계, 구축 및 거버넌스하는 방식에 대해 더 구조화된 운영 모델을 정의하고, 해당 모델 내에서 실행을 가속화하기 위해 Databricks Genie Code를 사용했습니다.

팀은 데이터 엔지니어링에 대한 AI 지원 접근 방식으로 Genie Code를 활용했습니다. Unity Catalog에서 거버넌스되는 데이터를 직접 작업함으로써 워크플로 전반에서 다단계 파이프라인을 계획하고 생성할 수 있습니다. 이를 통해 엔지니어는 도구를 전환하거나 구성 요소를 수동으로 연결할 필요 없이 아이디어에서 작동하는 파이프라인으로 훨씬 빠르게 전환할 수 있습니다.

이러한 속도는 팀의 작업 방식을 근본적으로 바꾸어 놓았습니다. 이전에는 프로토타입 제작에 며칠이 걸리던 파이프라인을 단 몇 분 만에 생성할 수 있게 되었습니다. 반복 주기가 단축되었으며, 엔지니어들은 상용구 코드를 작성하는 데 시간을 덜 쓰고 로직과 결과를 개선하는 데 더 많은 시간을 할애할 수 있게 되었습니다.

동시에, 대규모의 공유 데이터 환경에서 작업하려면 일관성이 필수적입니다. 파이프라인은 공통의 아키텍처 패턴을 따르고, 공유된 정의를 사용하며, 여러 팀에서 예측 가능하게 작동해야 합니다.

이러한 상황에서 대규모 언어 모델은 구조적인 과제를 안겨줍니다. 팀이 다양한 프롬프트나 모호하게 정의된 지침에 의존할 경우, 동일한 요청이라도 일관되지 않은 결과를 생성하여 시간이 지남에 따라 아키텍처의 변형을 초래할 수 있습니다.

이를 해결하기 위해 DAA 팀은 단순히 프롬프트 엔지니어링에만 의존하기보다, 거버넌스가 적용된 엔터프라이즈 환경에서 AI가 어떻게 작동해야 하는지 정의하는 데 집중했습니다.

Daikin Applied Americas의 데이터 및 분석 부문 시니어 디렉터인 Trent Lezer는 다음과 같이 말합니다. “Genie Code는 일은 빠르지만 다른 모든 사람과 동일한 아키텍처 제약 조건을 준수해야 하는 주니어 엔지니어처럼 대할 때 가장 효과적입니다. 'AI니까'라는 특별한 예외는 없습니다.”

재사용 가능한 기술을 통한 데이터 엔지니어링 확장

Genie Code의 초기 사용 방식은 익숙한 패턴을 따랐습니다. 즉, 단일 텍스트 블록에 아키텍처 규칙, 명명 표준, 변환 로직 및 문서화 요구 사항을 모두 인코딩하려는 긴 프롬프트를 사용하는 것이었습니다.

이 접근 방식은 확장성이 없었습니다. 팀마다 지침이 달랐고, 프롬프트 유지 관리가 어려워졌으며, 유사한 작업에서도 일관되지 않은 결과가 생성되었습니다.

이를 해결하기 위해 팀은 MECE(Mutually Exclusive, Collectively Exhaustive) 기술 프레임워크를 도입했습니다. Trent는 다음과 같이 설명합니다. “우리는 MECE 기술 프레임워크를 구현했습니다. 각 기술은 하나의 일관된 역량을 정의하고, 기술 간에 중복이 없으며, 전체 기술 세트가 데이터 엔지니어링 작업의 전체 라이프사이클을 포괄합니다.”

각 기술은 데이터 엔지니어링 라이프사이클의 특정 기능을 정의합니다. 이러한 기술들은 서로 중복되지 않으며 전체 워크플로를 포괄합니다. 이러한 기술에는 메달리온 아키텍처 설계, 소스 준비도 및 그레인(grain) 정의, 변환 패턴, 정규 정렬(canonical alignment) 및 거버넌스 표준이 포함됩니다.

프롬프트 내부에 규칙을 내장하는 대신, 팀은 런타임에 Genie Code가 적절한 기술을 로드하고 계획 및 실행 중에 이를 적용하도록 환경을 구성했습니다. 이를 통해 임시 지침을 해석하는 방식에서 정의된 실행 모델 내에서 작동하는 방식으로 동작이 전환됩니다.

거버넌스 관점에서도 이는 표준을 적용하는 방식을 변화시킵니다. Databricks의 솔루션 아키텍트인 James VanGordon은 다음과 같이 언급합니다. “Genie Code에서 계속해서 보게 되는 패턴은 매우 간단합니다. 프롬프트는 시작하는 데 도움을 주지만, 팀 표준을 강제하기에는 적합하지 않은 곳입니다. 동일한 규칙이 두 번 이상 중요하다면, Genie Code가 실제로 사용할 수 있도록 워크스페이스에 기술(skill)로 존재해야 합니다.”

그는 또한 실행 환경에 표준을 직접 내장하는 것의 중요성을 강조합니다. “이것이 바로 막연한 희망 사항이 아닌 현실로 만드는 비결입니다. 기술, Unity Catalog 컨텍스트, Genie Code가 모두 같은 공간에서 작동합니다. 가이드라인은 나중에 누군가 기억해 내야 하는 별도의 검토 프로세스가 아니라, 작업이 생성되는 바로 그 위치에 자리 잡고 있습니다.”

파이프라인 개발을 가이드하기 위한 메달리온 아키텍처 활용

또한 팀은 거버넌스 및 추론 프레임워크로서 메달리온 아키텍처의 역할을 강화했습니다. 브론즈(Bronze), 실버(Silver), 골드(Gold) 레이어는 이미 존재했지만, 변화의 핵심은 이를 단순한 스토리지 계층이 아니라 파이프라인 생성 시 명시적인 의사 결정 경계로 만드는 것이었습니다.

브론즈는 가공되지 않은 원천 데이터를 나타냅니다. 실버는 정제되고 정합성이 맞춰진 데이터를 나타냅니다. 골드는 비즈니스에 바로 사용할 수 있는 분석 데이터를 나타냅니다.

이 구조를 운영하기 위해 팀은 레이어 사이에 체크포인트를 도입했습니다. 데이터가 다음 단계로 넘어가기 전에 소스 그레인 정의, 조인 검증, 데이터 안정성 검사 등의 요구 사항을 충족해야 합니다.

이러한 체크포인트는 후속 검토 단계가 아니라 개발 워크플로 자체 내에서 강제됩니다. Genie Code는 파이프라인이 생성되고 수정될 때 이러한 제약 조건 내에서 작동합니다.

이를 통해 팀 간의 일관성을 보장하는 동시에 신속한 개발 과정에서 발생할 수 있는 아키텍처적 편법의 위험을 줄일 수 있습니다.

파이프라인과 비즈니스 개념의 연결

엔터프라이즈 데이터 엔지니어링에서 반복되는 과제는 기술 모델을 비즈니스 언어와 일치시키는 것입니다.

DAA에서 이해관계자들은 테이블, 조인, 변환이 아니라 장비, 고객, 서비스 이벤트, 계약의 관점에서 생각합니다.

이를 해결하기 위해 팀은 파이프라인 설계를 안정적인 비즈니스 엔티티에 고정했습니다. 엔지니어들은 기술적 구조에서 시작하는 대신, 데이터가 무엇을 나타내고 시간이 지남에 따라 어떻게 변하는지 식별하는 것부터 시작합니다.

이러한 전환은 후속 작업을 개선하고 여러 도메인에서 데이터 세트를 재사용할 때 모호성을 줄여줍니다.

시간이 지남에 따라 실버 레이어 모델과 골드 데이터 세트는 고립된 기술적 결정이 아닌 공유된 비즈니스 개념에 기반하기 때문에 더욱 일관성을 갖추게 됩니다.

팀에 일어난 변화

이 운영 모델이 자리를 잡고 AI가 내장되면서, 팀은 작업 실행 방식에서 명확한 변화를 목격했습니다.

특히 초기 탐색 및 반복 작업 중에 파이프라인 개발이 가속화되었습니다. 엔지니어들은 상용구 코드를 작성하는 데 시간을 덜 쓰고 비즈니스 로직을 개선하는 데 더 많은 시간을 할애했습니다.

결과물 또한 여러 팀에 걸쳐 더 일관되게 유지되었습니다. 유사한 사용 사례가 유사한 구조적 패턴을 따르게 되어 유지 관리성과 재사용성이 향상되었습니다.

중요한 점은 생성된 결과물에 대한 신뢰도가 높아졌다는 것입니다. 엔지니어들은 구조적 정확성을 검증하는 데 시간을 덜 쓰고 더 빠르게 반복 작업을 수행할 수 있었습니다.

개발 워크플로 내 의사 결정 표준화

이러한 성과를 반복 가능하게 만들기 위해 팀은 개발 프로세스 내의 주요 의사 결정을 표준화했습니다.

암묵적인 지식에 의존하는 대신 브론즈, 실버, 골드 데이터의 자격 요건, 소스 그레인 정의 방법, 재사용 가능한 변환 패턴, 비즈니스 엔티티 표현 방식 등을 포함한 정의를 명시적으로 만들었습니다. 이 구조는 확장에 매우 중요했습니다. 이를 통해 사용 사례가 발전하더라도 AI가 여러 팀에서 일관된 프레임워크 내에서 작동하도록 보장할 수 있습니다.

결실: 대규모 확장을 통해 실현한 가치

이 운영 모델의 결과는 단순히 파이프라인 속도가 빨라진 것에 그치지 않았습니다. 거버넌스가 적용된 엔터프라이즈 환경에서 데이터 엔지니어링을 확장할 수 있는 능력을 갖추게 된 것입니다.

수정 작업을 줄여 더 빠른 인도 실현

엔지니어들은 구조적으로 잘못된 파이프라인을 수정하는 데 시간을 덜 쓰고, 로직과 비즈니스 결과를 개선하는 데 더 많은 시간을 할애합니다.

팀 간 아키텍처 변형 감소

기술과 거버넌스 체크포인트를 일관되게 적용함으로써 유사한 데이터 과제를 해결하는 팀 간의 아키텍처 분기를 방지합니다.

엔지니어링과 비즈니스 간의 긴밀한 정렬

비즈니스 개념에 기반하여 파이프라인을 구축하면 명확성이 향상되고 후속 재작업이 줄어듭니다.

수동 오버헤드 없는 확장 가능한 거버넌스

가드레일이 시스템에 직접 내장되어 수동 강제 조치에 대한 의존도를 줄입니다.

AI 생성 결과물에 대한 신뢰도 향상

정의된 기술과 체크포인트가 결과물을 제어하므로, AI가 프로덕션 워크플로 내에서 안정적으로 작동합니다.

Trent는 다음과 같이 요약합니다. “목표는 AI가 더 많은 규칙을 따르도록 만드는 것이 아닙니다. 올바른 규칙을 무시할 수 없도록 만드는 것입니다.”

결론

Daikin Applied Americas에서는 구조화된 운영 모델과 AI 지원 개발을 결합하여 데이터 팀이 일관성, 명확성 및 제어력을 유지하면서 더 빠르게 확장할 수 있었습니다.

파이프라인 구축 방식을 정의하고 이러한 규칙을 개발 환경에 직접 내장함으로써, 팀은 속도와 거버넌스가 서로 경쟁하는 대신 상호 보완하는 시스템을 구축했습니다.

Genie Code에 대해 자세히 알아보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.