Databricks로 데이터 기반 인력을 구축하기 위한 청사진
작성자: Anindita Mahapatra , 에밀리 피에카르스키
목요일 오후 2시 47분. 성장하는 SaaS 회사의 지역 영업 관리자인 Lisa Chen은 점점 더 커지는 불안감으로 받은 편지함을 바라봅니다. 내일 이사회 회의는 오전 9시에 시작하는데, 그녀는 CEO가 3일 전에 요청한 지역 성과 수치를 아직 확보하지 못했습니다. 데이터 팀은 수요일 업무 종료 시까지 보고서를 제공하기로 약속했습니다. 그런 다음 오늘 정오까지로 변경되었습니다. 그녀의 마지막 Slack 메시지에는 "아직 작업 중입니다. 조정해야 할 데이터 소스가 많습니다."라는 답변만 돌아왔습니다.
Lisa의 이야기는 특별하지 않습니다. 산업 전반에 걸쳐 비즈니스 전문가들—제품 관리자, 운영 책임자, 마케팅 분석가, 보험금 청구 책임자—은 이 고통을 너무나 잘 알고 있습니다. 그들은 자신의 비즈니스를 속속들이 이해하지만, IT 또는 데이터 팀이 시스템을 조정하고, 파이프라인을 구축하고, 보고서를 작성해 주기를 기다리는 데 묶여 있습니다.
하지만 만약 그렇지 않다면 어떨까요? 모든 비즈니스 사용자가 코드를 배우거나 IT를 기다리지 않고도 데이터를 탐색하고, 질문하고, 의사 결정을 내릴 수 있다면요? 그것이 바로 Databricks가 실현하고 있는 현실입니다.
Lisa - 지역 영업 관리자, TechStart Inc.
매주 월요일 아침, Lisa는 팀의 주간 전략을 안내하기 위해 지역별 성과 지표가 필요합니다. 현재 그녀는 Salesforce에서 CSV 파일을 다운로드하고, 설문 조사 플랫폼에서 고객 만족도 데이터를 가져오고, 회사의 재무 대시보드와 수동으로 모든 것을 일치시킵니다. 수요일까지는 통찰력을 얻습니다. 금요일까지는 데이터가 이미 오래되어 기회를 놓치고 있습니다.
"저 는 제 지역을 누구보다 잘 알지만, 실제 영업 관리보다 스프레드시트 조작에 더 많은 시간을 씁니다."
Marcus - 보험금 청구 운영 책임자, SecureLife Insurance
Marcus는 사기 탐지 및 보험금 청구 처리 효율성을 감독합니다. 그는 IT에서 제공하는 주간 Power BI 보고서에 의존하여 사기 패턴과 처리 시간을 확인합니다. 특정 지역에서 15%의 자동차 보험금 청구 급증과 같이 비정상적인 것을 발견하면 즉시 드릴다운할 수 없습니다. 대신, 그는 또 다른 데이터 요청을 제출하고 잠재적인 사기가 계속되는 동안 3일을 기다립니다.
"상세 분석을 받을 때쯤이면 악당들은 이미 새로운 수법으로 옮겨갔습니다."
Priya - 디지털 마케팅 관리자, RetailFlow
Priya는 소셜 미디어, 이메일, 유료 검색, 디스플레이 광고 및 모바일 앱의 6가지 다른 채널에 걸쳐 캠페인 성과를 추적합니다. 각 플랫폼은 데이터를 다르게 내보냅니다. 기여 분석—실제로 전환을 유도하는 터치포인트를 이해하는 것—은 6개 소스 모두에서 데이터를 수동으로 결합해야 합니다. 포괄적인 캠페인 분석에는 2주가 걸립니다. 대부분의 캠페인은 최적화하기 전에 종료됩니다.
"데이터가 너무 늦게 도착하여 유용하지 않기 때문에 백만 달러 규모의 미디어 결정을 직감에 의존하고 있습니다."
비즈니스 사용자는 엔지니어링 팀과 다르게 작동합니다. 그들은 쿼리가 아닌 결과, 배포가 아닌 결정으로 생각합니다. 답변이 필요할 때—“이번 분기에 가장 많은 마진을 창출하는 제품은 무엇인가?” 또는 “우리의 유지 노력은 어디에 집중해야 하는가?”—이상적인 워크플로우는 가능한 한 빠르고 직관적으로 목표에 도달할 수 있도록 하는 것입니다.

위 다이어그램은 Databricks가 원시 데이터에서 실행 가능한 통찰력까지 여러 경로를 생성하여 비즈니스 사용자 경험을 어떻게 변화시키는지 보여줍니다. 비즈니스 사용자를 경직되고 IT에 의존적인 워크플로우로 강요하는 기존 데이터 아키텍처와 달리, Databricks는 다양한 사용자 유형이 선호하는 인터페이스를 통해 동일한 기본 데이터에 액세스할 수 있는 유연한 생태계를 제공합니다.
1. 데이터 수집 및 연합: 통합 병목 현상 제거
Lisa, Marcus, Priya와 같은 비즈니스 사용자에게 진정한 좌절감은 분산된 데이터에서 시작됩니다. 영업 지표는 Salesforce에, 설문 조사 결과는 고객 플랫폼에, 보험금 청구 데이터는 보험 시스템에, 마케팅 성과는 여러 채널에 걸쳐 있습니다. 각 데이터 세트는 다른 언어를 사용하며, IT가 조정하고 파이프라인이 따라잡기를 기다리는 동안 비즈니스 사용자는 묶여 있습니다.
Databricks는 소스에서 데이터 액세스를 통합하여 이 병목 현상을 제거합니다. Lakeflow를 사용하면 팀이 엔터프라이즈 애플리케이션에서 데이터 수집을 자동화할 수 있으며, Lakehouse Federation을 사용하면 데이터를 먼 저 이동하지 않고도 여러 시스템을 직접 쿼리할 수 있습니다. 결과: 월요일 아침 Lisa가 노트북을 열 때, 그녀의 영업, 설문 조사 및 재무 데이터는 이미 정리되고, 결합되고, 준비되어 있습니다. 외부 데이터 세트도 마찬가지로 액세스 가능합니다. Delta Sharing 및 Databricks Marketplace를 통해 Marcus는 즉시 업계 데이터와 사기 패턴을 벤치마킹할 수 있습니다. 즉, 몇 주가 걸리던 작업이 실시간 비교로 바뀝니다.
2. 핵심 데이터 플랫폼: 단일 진실 공급원
Marcus가 IT가 사기 분석 데이터를 추출하고 준비하기 위해 3일을 기다리는 대신, 그의 모든 정보—과거 패턴, 현재 청구, 외부 감시 목록 및 위험 점수—는 Databricks 플랫폼에서 개방적이고 일관되며 쿼리 가능한 형식으로 즉시 사용할 수 있습니다.
Unity Catalog는 셀프 서비스가 가능한 거버넌스 계층 역할을 합니다. 비즈니스 사용자는 항상 올바른 권한이 부여된 데이터 세트에 액세스하고 있다는 것을 알면서 자신 있게 데이터를 탐색할 수 있습니다. 더 이상 스프레드시트 버전 관리의 악몽이나 비즈니스 분석을 일반적으로 늦추는 규정 준수 문제가 없습니다.
거버넌스 외에도 Unity Catalog는 UC Metric Views를 도입합니다. 이는 비즈니스 메트릭을 일관되고 재사용 가능한 방식으로 정의하는 의미론적 계층입니다. 각 팀이 “활성 고객”, “이탈률” 또는 “청 구 주기 시간”과 같은 메트릭을 재계산하는 대신, 이러한 메트릭은 한 번 정의되고 모든 곳에서 재사용됩니다. 비즈니스 사용자에게는 공식을 의심하는 데 드는 시간이 줄어들고 조직 전체의 공유된 진실에 기반하여 행동하는 데 더 많은 시간을 할애할 수 있습니다.
3. 소비: 동일한 강력한 통찰력으로 가는 여러 경로
이제 비즈니스 친화적인 메트릭으로 표현되는 동일한 거버넌스되고 통합된 데이터는 다양한 사용자가 실제로 작업하는 방식에 맞는 여러 인터페이스를 통해 액세스할 수 있게 되어, 다양한 기술 수준과 워크플로우 선호도를 가진 비즈니스 전문가에게 좌절감을 주는 경직되고 일률적인 접근 방식을 제거합니다.

비즈니스 사용자는 속도, 단순성, 신뢰성을 원합니다. 즉, IT를 기다리지 않고 데이터를 탐색하고, 협업하고, 의사 결정을 내릴 수 있는 능력입니다. 이 모든 것을 거버넌스와 보안을 유지하면서 말입니다. Databricks는 하루의 모든 단계를 간소화하여 이를 가능하게 합니다.

모든 것은 Databricks One을 통한 원활한 로그인으로 시작되며, 비즈니스 사용자에게 신뢰할 수 있는 데이터, 대시보드 및 앱에 즉시 액세스할 수 있는 권한을 부여합니다. 그런 다음 검색이 간편해집니다. Unity Catalog의 통합 검색을 사용하면 정확한 테이블 이름이나 SQL 구문을 알 필요 없이 관련성, 품질 및 계보별로 결과를 표시하여 몇 초 안에 올바른 데이터 세트, 대시보드 또는 AI 모델을 찾을 수 있습니다. 새 데이터가 필요한 경우 Lakeflow Designer를 사용하여 드래그 앤 드롭 파이프라인을 만들거나 Excel 파일을 연결하거나 Marketplace에서 데이터 세트를 구독할 수 있으며, 이 모든 것이 Unity Catalog에서 관리됩니다. AI/BI Genie를 통해 자연어로 질문하거나, AI/BI 대시보드 및 BI 도구에서 추세를 시각화하거나, Databricks Assistant를 사용하여 도움을 받는 등 탐색은 자연스럽게 느껴집니다. 더 고급 요구 사항이 있는 사용자는 AI 함수, 에이전트 브릭, Databricks 앱 또는 Lakebase를 활용하여 모델을 구축하고, 워크플로를 자동화하고, 사전 예방적 인사이트를 비즈니스 프로세스에 직접 통합할 수 있습니다. 처음부터 끝까지 모든 단계는 속도, 단순성 및 신뢰성을 위해 설계되었으므로 데이터 검색 및 준비에 드는 시간을 줄이고 의사 결정에 데이터를 사용하는 데 더 많은 시간을 할애할 수 있습니다.
데이터 종속성에서 데이터 역량 강화로의 여정은 가치를 입증하는 동시에 조직의 자신감을 구축하는 단계적 접근 방식이 필요합니다. 성공적인 조직이 이 전환을 구조화하는 방법은 다음과 같습니다.
