목요일 오후 2시 47분입니다. 성장 중인 SaaS 회사의 지역 영업 관리자인 Lisa Chen은 점점 커지는 불안감과 함께 받은 편지함을 응시합니다. 내일 오전 9시에 이사회 회의가 시작되는데, 그녀는 아직 3일 전에 CEO가 요청한 지역별 실적 수치를 받지 못했습니다. 데이터 팀은 수요일 EOD까지 보고서를 주겠다고 약속했습니다. 그리고 오늘 정오까지 주겠다고 했습니다. 그녀의 마지막 Slack 메시지에 대한 답장은 '"아직 작업 중입니다. 조정해야 할 데이터 소스가 많습니다."'였습니다.
Lisa의 이야기는 특별하지 않습니다. 업계를 막론하고 제품 관리자, 운영 책임자, 마케팅 분석가, 클레임 디렉터 등 비즈니스 전문가들은 이러한 고충을 너무나 잘 알고 있습니다. 이들은 자신의 비즈니스를 속속들이 이해하고 있지만, IT 또는 데이터 팀이 시스템을 조정하고, 파이프라인을 정리하고, 보고서를 작성하기를 기다리는 데 발이 묶여 있습니다.
하지만 그 렇지 않다면 어떨까요? 모든 비즈니스 사용자가 코딩을 배우거나 IT 부서를 기다리지 않고도 데이터를 탐색하고, 질문하고, 의사 결정을 내릴 수 있다면 어떨까요? 이것이 바로 Databricks가 열어가고 있는 현실입니다.
Lisa - TechStart Inc. 지역 영업 관리자
매주 월요일 아침 Lisa는 팀의 주간 전략을 수립하기 위해 담당 지역 실적 측정항목이 필요합니다. 현재 Lisa는 Salesforce에서 CSV 파일을 다운로드하고 설문조사 플랫폼에서 고객 만족도 데이터를 가져오며 회사의 재무 대시보드와 모든 것을 수동으로 맞춰봅니다. 수요일쯤이면 인사이트를 얻게 됩니다. 금요일이 되면 데이터는 이미 오래된 것이 되어버리고 기회를 놓치게 됩니다.
"제가 제 담당 지역에 대해서는 누구보다 잘 알지만, 실제 영업 관리가 아니라 스프레드시트를 조작하는 데 더 많은 시간을 할애하고 있습니다."
Marcus - SecureLife Insurance 보험금 청구 운영 이사
Marcus는 사기 탐지 및 보험금 청구 처리 효율성을 감독합니다. 그는 사기 패턴과 처리 시간을 보여주는 IT 부서의 주간 Power BI 보고서에 의존합니다. 특정 지역의 자동차 보험금 청구가 15% 급증하는 것과 같이 비정상적인 것을 발견해도 즉시 드릴다운할 수 없습니다. 대신, 그는 또 다른 데이터 요청을 제출하고 잠재적인 사기가 계속되는 동안 3일을 기다립니다.
"제가 상세한 분석 결과를 받을 때쯤이면 악의적인 행위자들은 이미 새로운 수법으로 옮겨간 후입니다."
Priya - RetailFlow 디지털 마케팅 매니저
Priya는 소셜 미디어, 이메일, 유료 검색, 디스플레이 광고, 모바일 앱 등 6개의 서로 다른 채널에서 캠페인 성과를 추적합니다. 각 플랫폼은 데이터를 다르게 내보냅니다. 실제로 전환을 유도하는 터치포인트를 이해하는 기여도 분석을 위해서는 6개 소스의 데이터를 모두 수동으로 조인해야 합니다. 종합적인 캠페인 분석에는 2주가 걸립니다. 대부분의 캠페인은 최적화하기도 전에 종료됩니다.
"데이터가 너무 늦게 도착해서 쓸모가 없기 때문에 저는 직감에 의존해 수백만 달러 규모의 미디어 관련 결정을 내리고 있습니다."
비즈니스 사용자는 엔지니어링 팀과 다르게 운영됩니다. 이들은 쿼리가 아닌 결과, 배포가 아닌 의사 결정을 중심으로 생각합니다. 답이 필요할 때, 예를 들어 '이번 분기에 가장 많은 마진을 창출하는 제품은 무엇인가요?' 또는 '유지 노력에 집중해야 할 부분은 어디인가요?'와 같은 질문에 대한 이상적인 워크플로는 가능한 한 빠르고 직관적으로 답을 얻을 수 있는 것입니다.

위 다이어그램은 Databricks가 원시 데이터에서 실행 가능한 인사이트에 이르는 여러 경로를 생성하여 비즈니스 사용자 경험을 어떻게 혁신하는지 보여줍니다. 비즈니스 사용자가 경직되고 IT에 의존적인 워크플로를 따르도록 강요하는 기존 데이터 아키텍처와 달리, Databricks는 다양한 유형의 사용자가 선호하는 인터페이스를 통해 동일한 기본 데이터에 액세 스할 수 있는 유연한 에코시스템을 제공합니다.
1. 데이터 수집 및 페더레이션: 통합 병목 현상 제거
Lisa, Marcus, Priya와 같은 비즈니스 사용자에게 진정한 골칫거리는 분산된 데이터에서 시작됩니다. 영업 지표는 Salesforce에, 설문조사 결과는 고객 플랫폼에, 클레임 데이터는 보험 시스템에, 마케팅 성과는 여러 채널에 흩어져 있습니다. 각 데이터 세트는 서로 다른 언어로 되어 있어 비즈니스 사용자는 IT 부서가 데이터를 조정하고 파이프라인이 처리하기를 기다릴 수밖에 없습니다.
Databricks는 소스에서 데이터 액세스를 통합하여 이러한 병목 현상을 제거합니다. Lakeflow를 사용하면 팀이 엔터프라이즈 애플리케이션에서 데이터 수집을 자동화할 수 있으며, Lakehouse Federation을 사용하면 데이터를 먼저 이동하지 않고도 여러 시스템을 직접 쿼리할 수 있습니다. 그 결과, Lisa가 월요일 아침에 노트북을 열면 영업, 설문조사, 재무 데이터가 이미 정리되고 통합되어 준비된 상태가 됩니다. 외부 데이터 세트도 마찬가지로 액세스할 수 있습니다. Delta Sharing 및 Databricks Marketplace를 통해 Marcus는 사기 패턴을 업계 데이터와 즉시 벤치마킹하여 이전에는 몇 주가 걸리던 작업을 실시간 비교로 전환할 수 있습니다.
2. 핵심 데이터 플랫폼: 단일 진실 공급원(SSoT)
Marcus가 IT 부서에서 사기 분석 데이터를 추출하고 준비하는 데 3일을 기다리는 대신, 과거 패턴, 현재 클레임, 외부 관심 목록, 위험 점수 등 그의 모든 정보는 Databricks 플랫폼에서 개방적이고 일관되며 쿼리 가능한 형식으로 즉시 제공됩니다.
Unity Catalog 는 셀프 서비스를 지원하는 거버넌스 레이어 역할을 합니다. 비즈니스 사용자는 항상 올바른 권한이 부여된 데이터 세트에 액세스하고 있다는 것을 알기 때문에 자신 있게 데이터를 탐색할 수 있습니다. 비즈니스 분석을 지연시키는 스프레드시트 버전 관리 문제나 규정 준수 문제로 더 이상 골머리를 앓을 필요가 없습니다.
거버넌스 외에도 Unity Catalog는 비즈니스 지표를 일관되고 재사용 가능한 방식으로 정의하는 시맨틱 레이어인 UC Metric Views를 도입했습니다. 각 팀이 '활성 고객', '이탈률' 또는 '클레임 처리 시간'과 같은 계산을 재정의하는 대신, 이러한 지표는 한 번만 정의하면 어디서든 재사용할 수 있습니다. 비즈니스 사용자는 수식을 재확인하는 데 드는 시간을 줄이고 조직 전체의 공유된 정보를 바탕으로 조치를 취하는 데 더 많은 시간을 할애할 수 있습니다.
3. 소비: 동일한 강력한 인사이트를 얻는 다양한 경로
이제 비즈니스 친화적인 지표로 표현된 동일한 거버넌스 적용 및 통합 데이터는 다양한 사용자의 실제 작업 방식에 맞는 여러 인터페이스를 통해 액세스할 수 있게 되어, 다양한 기술 수준과 워크플로 선호도를 가진 비즈니스 전문가들을 좌절시켰던 획일적인 접근 방식을 제거합니다.

