주요 컨텐츠로 이동

KPMG가 Delta Sharing을 사용하여 수십억 건의 거래에 접근하고 감사하는 방법

에너지 공급 부문에서 감사를 개선하는 실용적인 접근법.

How KPMG uses Delta Sharing to access and audit tens of billions of transactions

Published: September 19, 2025

데이터 전략1분 이내 소요

작성자: Michael Douek

Summary

  • KPMG는 영국 주요 에너지 공급업체로부터 대규모 데이터를 감사하는데 성능과 생산성에 대한 도전을 극복했습니다.
  • Delta Sharing은 KPMG가 수십 억 건의 항목을 포함하는 대규모 데이터를 클라우드 간에 받고 분석하도록 도움을 주었습니다.
  • 이는 데이터 분석 루틴의 품질을 15 퍼센트포인트 향상시키는 결과를 가져왔습니다.

데이터에 대한 원활하고 안전한 접근이 조직에게 가장 큰 도전 중 하나가 되었습니다. 이는 기술 중심의 외부 감사에서 가장 명확하게 나타나는데, 거래 데이터의 100%를 분석하는 것이 금방 금은 표준이 되고 있습니다. 이러한 감사는 수십조 라인의 재무 및 운영 청구 데이터를 검토하는 것을 포함합니다.

대규모로 의미있는 인사이트를 제공하기 위해 분석이 견고할 뿐만 아니라 효율적이어야 합니다 - 비용, 시간, 품질을 균형있게 조절하여 짧은 시간 안에 최고의 결과를 얻을 수 있어야 합니다.

최근 KPMG는 주요 영국 에너지 공급업체와 협력하여 Databricks의 Delta Sharing 을 활용하여 성능 병목 현상을 극복하고 효율성을 향상시키며 감사 품질을 향상시켰습니다. 이 블로그에서는 Delta Sharing을 사용하여 감사 과정에서 우리의 경험, 주요 이점, 그리고 측정 가능한 영향을 논의합니다.

비즈니스 도전 과제

사회 공시 초과 보고기한을 맞추기 위해서는 짧은 감사 창에서 감사 대상 업체의 수십조 라인의 청구 데이터에 접근하고 분석할 필요가 있었습니다.

과거에는 AWS PostgreSQL에서 호스팅되는 검사를 받는 엔티티의 분석 환경에 의존했습니다. 데이터 볼륨이 증가함에 따라, 설정된 한계가 보였습니다:

  • 데이터 양: 우리의 접근 방식은 감사 기간을 넘어서 히스토리 적인 데이터를 분석하는데 필요한 것이었습니다. 이 데이터 세트는 해마다 크게 성장해 AWS PostgreSQL 한계를 초과하였습니다. 이 현상은 우리가 데이터를 두 개의 별도의 데이터베이스로 분할하여 추가적인 운영 오버헤드와 비용을 발생시키는 상황에 이르렀습니다.
  • 데이터 전송: 생산 환경에서 ‘분리된’ 분석 PostgreSQL 데이터베이스로 데이터를 이동 및 복사하는 것은 지연된 시작과 신선도 및 민첩성의 부족을 초래했습니다.
  • 쿼리 성능 저하: PostgreSQL은 병렬성을 지원하지만 단일 쿼리를 실행할 때 여러 CPU 코어를 이용하는 것이 아니므로 성능이 최적이 아닙니다.
  • 자원: 엔티티의 분석 환경 접근이 그들의 자산에 제한되었기 때문에, 우리는 사람들을 최대한 활용하고 새 팀원들을 빠르게 온보드하는데 어려움을 겪었습니다.

이러한 제약 사항들을 고려하면, 보안이나 거버넌스를 손상시키지 않고 효율적으로 데이터에 액세스하고 처리할 수 있는 확장 가능하고 고성능의 솔루션이 필요했습니다. 이를 통해 더 빠른 결과를 위한 ‘기계 시간’을 줄일 수 있습니다.

왜 Delta Sharing인가?

Delta Sharing은 오픈 데이터 공유 프로토콜로, KPMG와 감사 대상 업체 간의 중복 없이 안전하고 효율적인 크로스 플랫폼 데이터 교환을 가능하게 하는 이상적인 해결책을 제공했습니다.

PostgreSQL을 확장하는 것에 비해 Databricks는 여러 가지 유리한 점을 제공했습니다:

  • 대량 데이터셋 처리: Delta Sharing은 페타바이트 규모의 데이터를 처리하도록 설계되었으며, 이는 PostgreSQL의 성능 제한을 제거합니다.
  • 비용 절감: Delta Sharing은 대규모 데이터 복제와 전송에 필요한 저장 및 연산 비용을 절감시켰습니다.
  • 유연성: 공유 데이터는 Databricks에서 PySpark, SQL, 그리고 BI 도구 등의 Power BI와 같은 모든 것을 사용해서 접근할 수 있었으며, 이는 우리의 감사 성과물로의 원활한 통합을 가능하게 했습니다.
  • Delta 테이블: 우리는 데이터의 과거 상태로 "시간 여행"할 수 있었습니다. 이는 고객의 데이터 모델에서 이전에 손실된 역사적인 시점을 확인하는 데 가치 있었습니다.

구현 접근 방식

우리는 진행 중인 감사 작업에 방해를 주지 않는 방식으로 Delta Sharing을 도입했습니다:

  1. 데이터 공유: 우리는 엔티티에게 필요한 테이블과 뷰의 목록(JSON 형식)을 주었습니다. 그들은 Lakeflow Jobs와 Delta Sharing을 사용해서 이를 직접 우리의 Databricks 환경에 사용할 수 있게 만들었습니다. 감사 받는 엔티티는 키를 공유함으로써 저희에게 미리 합의한 데이터 셋을 AWS와 Azure 사이에서 최소한의 노력으로 보호할 수 있는 권한을 부여했습니다. Delta Sharing은 이런 크로스 클라우드 교환을 안전하게 처리했고, 데이터를 플랫폼 간에 복사하거나 이동시키지 않았습니다.
  2. Unity 카탈로그와의 통합: Unity 카탈로그는 데이터에 어떤 사람이 어떤 데이터에 접근했는지 완전한 가시성을 유지하면서 권한을 관리하고 거버넌스 정책을 적용하는 단일 장소를 제공했습니다.
  3. 예약된 데이터 새로 고침: 주요 감사 주기 동안 데이터는 재무보고 시간표에 맞게 새로 고쳐졌습니다.
  4. 성능 최적화: Databricks 내부에서 우리는 PostgreSQL에서 Spark SQL과 PySpark로 쿼리를 다시 작성했습니다. Delta Sharing이 거버넌스를 통해 데이터를 제공하면서, 우리는 데이터 이동을 관리하는 것이 아니라 성능 최적화에 집중했습니다.
KPMG 구현 접근법
Figure 1: KPMG Implementation Approach

측정 가능한 영향

우리는 Delta Sharing을 사용하여 수백만의 고객 계정에 걸친 수십억건의 미터 읽기를 접근하고 분석했습니다. 우리는 다양한 KPI들을 통해 뚜렷한 개선 사항을 확인했습니다:

  • 더 빠른 쿼리: Delta Sharing을 통해 빅데이터 작업에 더 많은 계산 파워를 사용할 수 있었습니다. 가장 복잡한 쿼리 중 일부는 80% 이상 빠르게 완료되었습니다. 예를 들어, 기존 PostgreSQL 프로세스에서 14.5시간에서 2.5시간으로 줄었습니다.
  • 감사 품질 개선: 기계를 기다리는 데 소비하는 시간을 줄임으로써, 우리는 예외, 이상 패턴, 복잡한 엣지 케이스에 더욱 집중할 수 있었습니다. 이로 인해 데이터 분석 결과는 어떤 경우에는 15 퍼센트포인트까지 향상되었고, 잔여 표본 추출의 부담을 줄였습니다.
  • 비용 절감: Delta Sharing을 사용함으로써, 우리는 데이터의 추가 복사를 하지 않아도 되었습니다. 이는 우리가 필요한 것만 저장하고 처리했다는 것을 의미하며, 이는 저장 및 연산 비용을 모두 줄였습니다.
  • 더 빠른 접근: 데이터가 Delta Sharing을 통해 제공되었기 때문에, 준비되기를 기다리는 데 시간을 낭비하지 않아 더 빠르게 작업을 시작할 수 있었습니다.
  • 팀 온보딩 간편화: 새로운 팀원들을 원활하게 온보드하고 SQL과 PySpark에 대한 코딩 스킬의 폭을 확대했습니다.
Delta Sharing의 사용은 우리의 감사 과정에 눈에 띄는 영향을 미쳤습니다. 우리는 클라우드 플랫폼 간에 데이터를 안전하게 접근할수 있으며-지연이나 수동 데이터 이동 없이-팀이 항상 최신의 단일 진실 원본에서 작업합니다. 이 크로스 클라우드 기능은 더 빠른 감사, 우리가 함께 일하는 감사 클라이언트들에게 보다 신뢰성 있는 결과, 그리고 모든 단계에서의 데이터 액세스에 대한 엄격한 통제를 의미합니다. — Anna Barrell, 감사 파트너, KPMG UK

기술적 고려사항

Databricks와 작업에 관련된 몇 가지 기술적 고려사항이 있습니다:

• Delta Sharing: 초기 채택자로서 일부 기능은 아직 사용할 수 없었습니다(예를 들어, 물리화 뷰 공유)하지만 이제 이 기능이 GA 릴리스와 함께 세밀화 되었으며, 이 기능을 사용하여 우리의 델타 공유 솔루션을 향상시킬 계획입니다.

• Lakeflow Jobs: 현재, Delta Shared 테이블에 대한 상위 작업이 완료되었는지 확인하는 메커니즘이 없습니다. 하나의 스크립트가 완료 전에 실행되었고, 이로 인해 출력이 불완전했지만, 이는 우리의 완전성 및 정확성 절차를 통해 빠르게 확인되었습니다.

미래를 향한 전망

Delta Sharing은 감사 데이터 분석을 위한 혁신적인 도구로 입증되었으며, 효율적이고 확장 가능하며 안전한 협업을 가능하게 합니다. 에너지 공급업체와 함께 성공적인 구현은 클라우드와 플랫폼 전반에 걸친 다양한 데이터 소스를 가진 클라이언트에게 Delta Sharing의 가치를 입증했습니다.

많은 조직들이 그들의 재무 데이터의 상당 부분을 SAP에 저장하고 있음을 알고 있습니다. 이는 효율성 및 품질의 원칙을 더 큰 규모에서 적용하는 추가적인 기회를 제공합니다.

올해 2월에 발표된 Databricks와 SAP의 전략적 제휴를 통해, 우리는 이제 Delta Sharing을 통해 SAP 데이터에 접근할 수 있습니다. 이 공동 솔루션이 SAP의 최근 10년 동안 가장 빠르게 판매되는 제품 중 하나가 되었는데, 이를 통해 우리는 이 데이터에 접근하면서 그 컨텍스트와 구문을 유지할 수 있습니다. 이렇게 함으로써, 우리는 데이터가 Unity 카탈로그에서 완전히 보호되고 그 총 소유 비용이 최적화되는 것을 보장할 수 있습니다. 우리가 감사하고 있는 업체들이 그들의 변형 여행을 진행함에 따라, 우리 KPMG는 이 추세를 바탕으로 한 스트림라이너 감사 과정에 추가적인 이점을 예상하고 있습니다.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요