Panasonic US의 중앙 데이터 인프라 팀은 판매 / 영업, 공급망, HR 등 여러 사업부를 아우르는 데이터 백본 역할을 수행하는 야심찬 임무를 맡고 있습니다. 레거시 ETL 파이프라인과 단편화된 데이터 웨어하우스로 인해 일일 보고 속도가 느려지고, 때로는 수집에 몇 시간이 걸리거나 예측 불가능한 장애가 발생하자 팀은 처음부터 완전히 현대화하기로 전략적인 결정을 내렸습니다. Databricks Platform과 Lakeflow를 표준으로 채택하여 취약하고 단절된 스택을 신뢰할 수 있는 전사적 데이터 기반으로 전환했습니다. 몇 시간씩 걸리던 프로세스가 이제 몇 분 만에 완료되고, 분석가들은 이전에는 접근할 수 없었던 데이터에 직접 액세스할 수 있으며, 팀은 이미 다음 목표인 AI를 구축하고 있습니다.
단편화된 레거시 파이프라인은 여러 부서에 걸친 비즈니스 운영에 지장을 줍니다.
Panasonic의 중앙 데이터 및 IT 인프라팀은 여러 내부 계열사 및 사업부를 위한 포괄적인 데이터 전략을 주도합니다. 비즈니스 리더는 일상적인 운영, 매출 예측, 공급망 관리를 지원하기 위해 SAP S/4HANA, Workday, 글로벌 POS(판매 시점 정보 관리) 시스템과 같은 엔터프라이즈 시스템에 크게 의존합니다. 하지만 서로 연결되지 않은 ETL 도구와 복잡한 데이터 웨어하우스로 구성된 Panasonic의 레거시 데이터 스택은 이러한 데이터의 방대한 양과 복잡성을 처리하는 데 어려움을 겪었고, 이는 심각한 성능 및 복원력 문제로 이어졌습니다.
가장 치명적인 병목 현상은 SAP 데이터 수집이었습니다. 엔지니어링 팀은 기존 변경 데이터 캡처(CDC) 프로세스의 한계를 인식하고 더 안정적인 접근 방식을 모색했지만, 기존 아키텍처 때문에 매일 100개가 넘는 테이블에 대해 전체 데이터를 새로고침해야만 했습니다. 수억 개의 행이 있는 대규모 트랜잭션 테이블에는 복잡한 파티션이 필요했으며, 이로 인해 레거시 파이프라인이 자주 실패했습니다. 이러한 과부하 작업은 완료하는 데 5~6시간이 걸렸고, 1년에 약 10번 중단되었으며, 이를 해결하려면 몇 시간 또는 하루 종일 여러 팀에 걸친 IT 집중적인 문제 해결이 필요했습니다. 엄격한 새벽 보고 마감 기한을 준수해야 하는 한 내부 사업부는 이러한 서비스 중단으로 인해 비용이 많이 드는 지연을 겪었습니다. 고위 경영진은 중요한 비즈니스 의사 결정을 내리는 데 필요한 일일 판매, 재고, 물류 보고서를 자주 받지 못해 일상적인 운영에 차질이 빚어졌습니다. 또한 귀중한 데이터가 레거시 데이터베이스 사일로에 고립되어 있어, 정확한 예측을 위해 가공되지 않은 데이터에 액세스해야 하는 다운스트림 비즈니스 인텔리전스(BI) 애널리스트의 가시성을 저해했습니다.
Lakeflow Connect를 사용한 엔터프라이즈 수집 표준화
Panasonic은 복원력 있는 중앙 집중식 데이터 백본을 구축하기 위해 Databricks 플랫폼으로 마이그레이션했으며 Lakeflow Connect를 적극적으로 사용하여 기업의 주요 데이터 소스 전반에서 데이터 수집을 표준화했습니다.
가장 시급한 우선 순위는 SAP S/4HANA였습니다. Panasonic은 SAP Datasphere와 통합하여 Azure Data Lake Storage(ADLS)에 파일을 저장하고, 가장 장애가 잦은 파이프라인 중 하나에서 증분 수집을 원활하게 처리하기 위해 Auto Loader(Lakeflow Connect의 일부)를 배포했습니다. 이 현대적인 아키텍처는 오버헤드를 대폭 절감한 안정적인 자동화 아키텍처를 제공했습니다. 결과가 즉시 나왔습니다.
이를 바탕으로 팀은 다른 중요 시스템에도 동일한 접근 방식을 확대 적용했습니다. 이전에는 기록상 추적이 어려웠던 HR 및 인력 데이터가 이제 Workday 커넥터를 통해 시간에 따른 관리자 변경 및 직원 재고용과 같은 변경사항을 포착하는 구조화된 관계형 테이블로 수집됩니다. 또한 SFTP 커넥터는 파나소닉 일본 본사로부터 판매 시점(POS) 수치, 배송 지표, 제조 기록을 포함한 글로벌 공급망 데이터를 지속적으로 가져옵니다. CSV 및 Excel 파일 형식의 이 시한성 데이터는 준실시간 공급망 분석에 사용할 수 있도록 제공됩니다.
Panasonic은 정형 및 반정형 데이터를 넘어 이제 비정형 PDF 문서 저장소라는 과제에 도전하고 있습니다. 팀은 SharePoint를 Databricks 환경에 연결하여 수천 건의 복잡한 법률 및 공급업체 문서 처리를 자동화했습니다. Databricks Document Intelligence(`ai_parse_document` 및 `ai_query`)를 사용하여 수십 개의 핵심 필드를 높은 정밀도로 처리 및 추출하여 구조화된 출력으로 변환함으로써 정적 문서를 실시간으로 쿼리 가능한 데이터로 전환했습니다.
"기존 레거시 스택에서는 10,000건의 공급업체 계약과 MSA를 처리하는 데 2주가 걸리는 수작업의 고된 과정이었습니다. " Databricks SharePoint 커넥터, Serverless compute, Databricks Document Intelligence를 활용하여 수집부터 중요한 만료일 추출까지 전체 워크플로를 불과 2~3시간으로 단축했습니다." – 사카모토 신고, Panasonic IT 수석 데이터 아키텍트
이 모든 것의 기반에는 Unity Catalog를 통한 통합 거버넌스 계층이 있으며, 이를 통해 팀은 중복 없이 여러 사업부 간에 데이터를 안전하게 공유할 수 있습니다. 팀은 이러한 모든 소스에서 Databricks Serverless compute를 활용하여 훨씬 짧은 시간 안에 고성능 ETL 노트북을 실행합니다.
"기존 레거시 환경에서는 대용량 SAP 테이블을 로드하는 데 5~6시간이 걸렸으며 자주 실패했습니다." Databricks로 표준화하고 Auto Loader를 사용하여 가장 큰 테이블의 인제스트 시간이 수 시간에서 단 2분으로 단축되었습니다. 이제 저희 파이프라인은 완전히 안정화되어 경영진에게 시기적절한 보고를 보장합니다." – 유카 카토, 파나소닉 리드 데이터 엔지니어
신뢰할 수 있는 데이터, 전사적 영향
오늘날 Panasonic의 비즈니스 리더들은 매일 아침 일일 판매, 청구, 재고를 다루는 정확하고 시기적절한 보고서를 차질 없이 전달받는 것으로 하루를 시작합니다. 모든 실버 테이블의 엔드투엔드 데이터 처리는 약 30분 만에 완료되며, 이전에는 도달할 수 없을 것 같았던 안정성이 이제는 새로운 표준이 되었습니다.
영향은 성능에만 국한되지 않습니다. 비용이 많이 드는 레거시 데이터 웨어하우스, ETL, BI 라이선스를 폐기함으로써 팀은 TCO를 크게 절감했습니다. 그 결과 예산과 대역폭에 여유가 생겨 팀이 더 가치 있는 업무에 집중할 수 있게 되었습니다. 그리고 신뢰할 수 있는 데이터 기반이 마련되면서 조직 전체에 걸쳐 액세스 권한이 확대되었습니다. BI 분석가는 이제 데이터를 직접 탐색하여 로드 및 refresh 시간을 약 50% 단축할 수 있습니다. 영업 담당자와 지역 관리자는 자신만의 뷰와 예측 모델을 구축하고 있습니다.
"Databricks 덕분에 저희 데이터 분석가들은 더 많은 것을 할 수 있게 되었습니다. 원시 데이터를 직접 탐색하고, 공유 노트북에서 협업하며, 그 어느 때보다 빠르게 작업을 진행할 수 있습니다." 이러한 운영 효율성 덕분에 저희 소규모 데이터 과학팀은 엔터프라이즈 규모의 솔루션을 처리할 수 있습니다." – 파나소닉 BI 디렉터, 제리 뎅(Jerry Deng)
안정적이고 통합된 데이터 기반이 마련된 지금, 바로 그 액세스 정신이 Panasonic의 AI 포부를 만들어가고 있습니다. 팀은 기술 지식이 없는 견적 팀이 가격 내역과 예측 인사이트에 셀프 서비스로 액세스할 수 있도록 Genie 작업 공간을 구현하고 있습니다.
"저희 견적 팀은 SQL로 생각하지 않고 고객과 제품으로 생각합니다. " Genie는 사용자에게 맞춰 가격 관련 질문을 즉각적인 답변으로 전환하고, 소규모 데이터 팀이 전사적인 영향력을 발휘하도록 지원합니다." - 엘레나 구사코바, 파나소닉 선임 데이터 사이언티스트



