보안 및 신뢰 센터

여러분의 데이터 보안을 최우선으로 생각합니다

배경 이미지

데이터는 고객의 가장 중요한 자산이고 언제나 보호해야 할 대상입니다. 그래서 보안은 Databricks 레이크하우스 플랫폼의 모든 계층에 기본으로 들어갑니다. Databricks는 투명성을 지켜 고객이 당사 플랫폼을 활용하는 동안 필수적인 규정을 준수할 수 있도록 돕습니다.

문서, 규정 준수 자료가 포함된 실사 패키지를 사용하여 Databricks의 보안을 직접 검토해 보세요.
Accenture
Wehkamp Logo
Wehkamp Logo
"Databricks 플랫폼은 관리와 거버넌스를 간소화해주어서 회사 전체에서 여러 팀이 데이터를 기반으로 한 의사 결정을 내릴 수 있게 되었습니다. 사용자를 추가하기 쉽고 클라우드 제공업체와 기본적으로 보안이 통합되며 APIs-for-everything이 제공되어 Wehkamp 직원 모두에게 필요한 데이터와 툴을 제공할 수 있었어요."

— Wehkamp 선임 데이터 사이언티스트 Tom Mulder

Adren Street Labs
Wehkamp Logo
Wehkamp Logo
“우리가 개발한 십여 개의 솔루션은 모두 Azure Databricks를 핵심 기반으로 삼아 구축되었습니다. 그 덕분에 연구실에서 운영 배포까지 매우 빠르게 진행되는 패턴을 활용하면서도 데이터 보안과 컴퓨팅 확장성을 유지할 수 있게 되었습니다.”

— Jeff Feldman, CTO, Arden Street Labs

Credit Suisse
Wehkamp Logo
Wehkamp Logo
"빅데이터와 AI 도입이 늘어나고 있지만 대부분 금융 서비스 기업은 여전히 데이터 유형, 개인정보 보호, 확장과 관련하여 상당한 어려움을 겼습니다. Credit Suisse는 개방형 클라우드 기반 플랫폼(예: Azure Databricks)에서 표준화를 통해 이러한 장애물을 극복하고, 조직 전체의 운영 및 ML의 속도와 규모를 늘립니다."

— Credit Suise case study

배경 이미지

Trust

고객의 신뢰를 받는 Databricks의 플랫폼은 소프트웨어 개발과 전달 수명 주기 전체에 보안을 넣어서 구축합니다. Databricks는 침투 테스트, 취약성 평가, 강력한 내부 액세스 제어 등, 엄격한 운영 보안 관행을 따릅니다. 투명성은 신뢰를 얻기 위한 열쇠입니다. Databricks는 어떻게 운영하고 고객 및 파트너와 긴밀하게 협력하여 보안 문제를 해결하는지 공개적으로 공유합니다.

계약상의 약속

보안 및 신뢰 센터에서는 문서와 모범 사례를 제공할 뿐만 아니라, 계약상의 약속을 통해 모든 고객에게 보안을 제공합니다. 이 약속은 고객 계약서에 포함된 보안 부록에 나와 있습니다. 보안 부록은 Databricks가 고객의 데이터를 안전하게 지키기 위해 준수하는 보안 조치 및 관행의 목록이 명료한 언어로 설명되어 있습니다.

취약성 관리

취약한 소프트웨어를 탐지하고 빠르게 수정하는 것은 소프트웨어 또는 서비스 공급업체의 가장 중요한 책임입니다. 취약성이 코드에 존재하든, 사용 중인 소프트웨어에 있든 상관없습니다. Databricks에서는 이 책임을 매우 중요하게 여기고 있으며, 보안 부록에 복구 업데이트 일정 정보를 제공합니다.

내부적으로는 여러 개의 유명한 보안 스캔 도구를 사용하여 플랫폼 내의 취약성을 찾습니다. 또한, Databricks는 타사 서비스를 통해 자사 공개 인터넷 사이트를 분석하고 잠재적 위험을 찾아냅니다. 심각도-0 취약성(예: 활발하게 익스플로잇되는 것으로 알려진 제로데이 위협)은 가장 긴급하게 처리하고, 수정 사항은 다른 모든 롤아웃보다 우선하여 전달됩니다.

침투 테스트 및 버그 포상 제도

Databricks는 사내 공격 보안팀, 자격을 갖춘 타사 침투 테스터, 연중 내내 운영되는 공개 버그 포상 프로그램을 통해 침투 테스트를 진행합니다. 일반적으로 외부 타사 침투 테스트는 연간 8~10회, 내부 침투 테스트는 연간 15~20회 실시합니다. 실사 패키지에서 플랫폼 전체의 타사 테스트 보고서를 공개적으로 공유합니다.

고객이 Databricks에서 실행되는 워크로드를 신뢰할 수 있도록 도움을 드립니다. 고객이 Databricks에 대해 침투 테스트를 진행하고 싶다면 얼마든지 가능합니다.

  • 클라우드 서비스 공급업체 계정에 있는 데이터 플레인 시스템 내에서 취약성 스캔을 실행합니다.
  • 자신의 코드에 대해 테스트를 실행합니다. 단, 이러한 테스트는 클라우드 서비스 공급업체 계정에 있는 데이터 플레인(또는 다른 시스템)으로만 범위를 한정하고, 자신의 컨트롤을 평가해야 합니다.
  • 버그 포상 제도에 참여하세요.

HackerOne을 통해 제공하는 Databricks 버그 포상 제도에 참여하고 라이브 고객이 사용하지 않는 Databricks 배포에 액세스하세요.

내부 액세스

Databricks는 내부 직원이 프로덕션 시스템, 고객 환경, 고객 데이터에 액세스하는 데 엄격한 정책을 적용하고 통제합니다.

클라우드 서비스 제공업체 콘솔(AWS, GCP, Azure)과 같은 코어 인프라 콘솔에 액세스하려면 다단계 인증이 필요합니다. Databricks는 가능하면 명시적 자격 증명(예: 비밀번호, API 키)를 사용하지 않도록 하는 정책과 절차가 있습니다. 예를 들어 지정된 보안 팀원만 새 AWS IAM 주체 또는 정책에 대한 예외 요청을 처리할 수 있습니다.

Databricks 직원은 매우 특정한 상황에서만 프로덕션 시스템에 액세스할 수 있습니다. 모든 액세스는 액세스를 검증하고 정책을 검사하는 Databricks 기반 시스템을 통해 인증을 받아야 합니다. 액세스하려면 직원이 회사 VPN에 있어야 하고, SSO 솔루션은 다단계 인증이 필요합니다.
자세히 알아보기 →

Databricks에서는 가능한 한 의무를 분리하는 것을 내부 보안 표준으로 삼습니다. 예를 들어 클라우드 ID 공급업체의 인증과 승인 프로세스를 한 곳에 모아 액세스 승인(직원이 시스템에 액세스해야 할 필요성 인정)과 액세스 권한을 부여하는 절차(직원이 시스템에 액세스 가능)를 분리합니다.

Databricks는 내부 시스템과 프로덕션 시스템 액세스 시 최소 권한 액세스를 우선합니다. 최소 권한은 내부 정책에 명시되어 있으며, 당사 절차에 반영됩니다. 예를 들어 대부분 고객이 Databricks 직원의 워크스페이스 액세스를 제어할 수 있고, Databricks에서는 자동으로 다양한 검사를 적용하여 액세스 권한을 부여하고 일정 시간이 지나면 액세스 권한을 자동 취소합니다.
자세히 알아보기 →

안전한 소프트웨어 개발 수명 주기

Databricks는 소프트웨어 개발 수명 주기(SDLC)가 있습니다. 기능 요청에서 프로덕션 모니터링까지 모든 단계에 보안을 포함하고, 수명 주기 전체에서 기능을 추적하도록 설계된 툴링으로 지원합니다. 시스템, 라이브러리, 코드의 보안을 자동으로 스캔하며, 취약성을 자동 추적합니다.

Databricks는 Ideas Portal을 활용항 기능 요청을 추적하고, 고객과 직원에 대한 투표를 허용합니다. Databricks의 기능 설계 프로세스는 설계 단계부터 개인정보 보호와 보안을 고려합니다. 첫 평가 이후 영향이 큰 기능은 엔지니어링 분야 보안 전문가의 보안 설계 검토를 받고, 위협 모델링과 기타 보안 검사를 거칩니다.

애자일 개발 방법론을 적용하여 새로운 기능을 여러 번의 단기 개발로 나누어 분리합니다. Databricks는 Databricks 플랫폼 개발을 외부에 위탁하지 않고 모든 개발자는 채용 시점과 그 이후에도 1년에 한 번씩 OWASP Top 10을 포함한 보안 소프트웨어 개발 훈련을 거쳐야 합니다. 프로덕션 데이터와 환경은 개발, QA, 준비 환경과 분리됩니다. 모든 코드는 다단계 인증을 포함한 SSO와 세분화된 권한이 필요한 소스 제어 시스템에 체크인됩니다. 코드 병합 시에는 각 해당 영역의 기능적 엔지니어링 책임자에게 승인을 받아야 하고, 모든 코드는 동료에게 검토를 받습니다.

코드 병합 시점, 코드 병합 이후, 릴리스 시점, 프로덕션 등 SDLC 프로세스의 여러 단계에서 품질 검사(예: 유닛 테스트, 전체적 테스트)를 실행합니다. Databricks에서 진행하는 테스트에는 양성 테스트, 회귀 테스트, 음성 테스트 등이 있습니다. 배포 후에는 광범위한 모니터링을 통해 장애를 찾아냅니다. 사용자는 상태 페이지를 통해 시스템 가용성에 대한 알림을 받습니다. P0 또는 P1 문제 발생 시, Databricks 자동화가 "5가지 이유" 근본 원인 분석 방법을 트리거하여 검토를 감독할 사후 검토 팀원을 선택하고 후속 정보를 추적합니다.

Databricks에서는 업계 최고의 도구를 사용하여 취약한 패키지나 코드를 찾아냅니다. 사전 프로덕션 환경에서는 자동으로 운영 체제와 설치된 패키지를 대상으로 인증된 호스트 및 컨테이너 취약성 스캔을 실행하고, 동적 및 고정 코드 분석 스캔을 병행합니다. 취약성에 대해서는 엔지니어링 티켓이 자동으로 생성되고, 관련 팀에 할당됩니다. 제품 보안팀도 중요한 취약성을 분류하여 Databricks 아키텍처에서 심각도를 평가합니다.

Databricks는 코드를 릴리스하기 전의 공식 판정을 포함한 공식 릴리스 관리 프로세스가 있습니다. 변경 사항은 회귀를 피하도록 설계된 테스트를 거치고, 새로운 기능이 실제 워크로드에서 테스트되었는지 검증합니다. 또한, 모니터링과 함께 단계별 롤아웃을 거쳐 조기에 문제를 발견합니다. 의무를 분리하기 위해 Databricks 배포 관리 시스템만 프로덕션 변경 사항을 릴리스할 수 있도록 하였고, 배포할 때마다 여러 사람의 승인이 필요합니다.

Databricks는 불변 인프라 모델을 따릅니다. 시스템을 패치하지 않고 교체함으로써 구성에서 일관성이 어긋날 위험을 피하고 안정성과 보안을 개선합니다. 새로운 시스템 이미지나 애플리케이션 코드가 출시되면 워크로드를 새로운 코드가 있는 새 인스턴스로 이동합니다. 이는 제어 플레인과 데이터 플레인에 모두 적용됩니다(Databricks 아키텍처에 대한 자세한 정보는 보안 기능 섹션 참조). 코드가 프로덕션에 배포되면 인증 프로세스에서 추가, 제거 또는 변경되지 않은 아티팩트를 확인합니다.

SDLC 프로세스의 마지막 단계는 고객에게 제공하는 문서를 작성하는 것입니다. Databricks 문서는 코드와 비슷하게 관리됩니다. 문서는 동일한 소스 제어 시스템에 저장됩니다. 중요한 변경 사항은 기술적 리뷰는 물론이고, 문서팀의 리뷰를 거쳐야 문서에 병합하고 공개할 수 있습니다.
문서 방문 →

배경 이미지
네트워크 액세스 클라우드

자신이 관리하고 보호하는 VPC/VNet으로 배포하는 옵션 기본적으로 데이터 플레인은 인바운드 네트워크 연결이 없습니다.

AWS, Azure

사용자 또는 클라이언트가 Databricks 제어 플레인 UI 및 API로 비공개 액세스(또는 비공개 링크)

AWS, Azure

클래식 데이터 플레인에서 Databricks 제어 플레인으로 비공개 액세스(또는 비공개 링크)

AWS, Azure

클래식 데이터 플레인에서 클라우드 플랫폼의 데이터로 비공개 액세스(또는 비공개 링크)

AWS, Azure

IP 액세스 리스트에서 인터넷을 통한 Databricks 제어 플레인 UI 및 API 액세스 제어

AWS, Azure, GCP

통신을 제한하는 자동 호스트 기반 방화벽

AWS, Azure, GCP

사용자 및 그룹 관리 클라우드

클라우드 서비스 공급업체 ID 관리를 사용하여 클라우드 리소스와 매끄럽게 통합

AWS, Azure, GCP

Azure Active Directory 조건부 액세스 정책 지원

Azure(AWS/GCP에는 적용되지 않음)

SCIM 프로비저닝으로 사용자 ID 및 그룹 관리

AWS, Azure, GCP

ID 제공자 통합을 제공하는 SSO(ID 제공자를 통해 MFA 활성화)

AWS(Azure/GCP에는 적용되지 않음*)

자동화를 위해 애플리케이션 ID를 관리하는 서비스 주체 또는 서비스 계정

AWS, Azure, GCP

사용자 계정을 잠궈서 일시적으로 사용자의 Databricks 액세스 비활성화

AWS(Azure/GCP에는 적용되지 않음*)

비밀번호 권한으로 로컬 비밀번호 비활성화

AWS(Azure/GCP에는 적용되지 않음*)

액세스 관리 클라우드

워크스페이스, 작업, 노트북, SQL을 포함한 모든 Databricks 개체에 대한 세분화된 권한 기반 액세스 제어

AWS, Azure, GCP

권한 관리와 개인 액세스 토큰이 포함된 보안 API 액세스

AWS, Azure, GCP

OAuth 토큰 지원

Azure, GCP

여러 워크스페이스에서 각 보안 프로필로 사용자, 워크로드, 데이터 세분화

AWS, Azure, GCP

데이터 보안 클라우드

저장된 제어 플레인 데이터 암호화

AWS, Azure, GCP

고객 관리형 키 암호화 제공

AWS, Azure

제어 플레인과 데이터 플레인 사이의 모든 통신 전송 암호화

AWS, Azure, GCP

전송 중 클러스터 간 spark 암호화, 또는 전송 중 플랫폼 최적화 암호화

AWS, Azure

세분화된 데이터 보안 및 동적 뷰로 마스킹

AWS, Azure, GCP

Unity Catalog로 데이터 거버넌스 세분화

출시 예정

관리자 제어로 데이터 유출 위험 제한

AWS, Azure, GCP

워크로드 보안 클라우드

리포지토리에서 코드 버전을 효과적으로 관리

AWS, Azure, GCP

내장된 시크릿 관리로 코드에 자격 증명을 하드코딩할 위험 제거

AWS, Azure, GCP

관리형 데이터 플레인 머신 이미지를 패치, 보안 스캔, 기본 강화로 정기 업데이트

AWS, Azure(GCP에 적용되지 않음)

클러스터 정책으로 비용 억제, 보안 및 검증 요구 사항 적용

AWS, Azure, GCP

불변 단기 인프라로 구성의 일관성 상실 방지

AWS, Azure, GCP

감사 및 로깅 클라우드

Databricks 사용자 활동의 포괄적이고 구성 가능한 감사 로깅

AWS, Azure, GCP

Databricks SQL 명령 기록 로깅

AWS, Azure

Databricks 클러스터 로깅

AWS, Azure

보안 검증(규정 준수) 클라우드

ISO 27001, 27017, 27018 준수

AWS, Azure, GCP

SOC 2 Type 2 보고서 제공

AWS, Azure, GCP

GDPR 및 CCPA 준수

AWS, Azure, GCP

PCI DSS를 준수하는 배포

AWS(싱글 테넌트만)

FedRAMP Moderate 준수

AWS 적용 예정, Azure

FedRAMP High 준수

Azure

HIPAA를 준수하는 배포

AWS, Azure

HITRUST

Azure

* Azure Databricks는 Azure Active Directory와 통합되고, GCP 기반 Databricks는 Google Identity와 통합됩니다. Databricks 자체에서는 이를 구성할 수 없지만, 필요에 따라 Azure Active Directory 또는 Google Identity를 구성할 수 있습니다.

Security Best Practices

Databricks has worked with thousands of customers to securely deploy the Databricks platform, with the security features that meet their architecture requirements. This document provides a checklist of security practices, considerations and patterns that you can apply to your deployment, learned from our enterprise engagements.

View document for AWS and GCP

Databricks Security & Trust Overview Whitepaper

The Security Overview Whitepaper is designed to provide a summary of all aspects of Databricks for security teams to quickly review.

View document

Databricks Security Documentation

Databricks includes documentation on how to operate our security features and best practices to help our customers deploy quickly and securely. The documentation is targeted primarily at teams that deploy or use Databricks.

Access documentation for AWS, GCP, or Azure

플랫폼 아키텍처

Databricks 레이크하우스 아키텍처는 두 개의 플레인으로 나뉘어, 권한을 단순화하고 데이터 중복을 피하며 위험을 완화합니다. 제어 플레인은 관리 플레인이며, Databricks가 워크스페이스 애플리케이션을 실행하고 노트북, 구성, 클러스터를 관리합니다. 서버리스 컴퓨팅을 사용하지 않는 한, 데이터 플레인은 클라우드 서비스 제공업체 계정 내에서 실행되어 데이터를 계정 밖으로 꺼내지 않고 처리합니다. Databricks를 고객 관리형 VPC/VNet, 내보내기를 비활성화하는 관리자 콘솔 옵션 등의 기능을 사용하여 데이터 유출 보호 아키텍처에 Databricks를 포함할 수 있습니다.

일부 데이터(예: 노트북, 구성, 로그, 사용자 정보)가 제어 플레인 내부에 존재하기는 하지만, 이 정보는 제어 플레인에 저장된 상태에서 암호화되고 제어 플레인과의 통신 시 전송 중에 암호화됩니다. 또한, 특정 데이터를 저장할 곳을 선택할 수 있습니다. 데이터 테이블(Hive 메타스토어)에 대한 메타데이터를 저장하는 자체 스토어를 호스팅하고, 클라우드 서비스 제공업체 계정에 쿼리 결과를 저장하고, Databricks Secrets API를 사용할지 결정할 수 있습니다.

어떤 데이터 엔지니어가 Databricks에 로그인해서 Kafka의 원시 데이터를 정규화된 데이터 세트로 변환하고 Amazon S3, Azure Data Lake Storage 등의 스토리지로 전송하는 노트북을 작성한다고 생각해 보세요. 6단계:

  1. 데이터 엔지니어가 원할 경우, SSO를 사용하여 Databricks 계정에서 호스팅되는 제어 플레인의 Databricks 웹 UI로 매끄럽게 인증합니다.
  2. 데이터 엔지니어가 코드를 작성하는 동안 웹 브라우저가 제어 플레인으로 보냅니다. JDBC/ODBC 요청도 동일한 경로를 따라 토큰으로 인증합니다.
  3. 준비가 끝나면 제어 플레인은 Cloud Service Provider API를 사용하여 데이터 플레인의 새로운 인스턴스로 구성된 Databricks 클러스터를 CSP 계정에 생성합니다. 관리자는 클러스터 정책으로 보안 프로필을 적용합니다.
  4. 인스턴스가 시작되면 클러스터 관리자가 데이터 엔지니어의 코드를 클러스터로 보냅니다.
  5. 클러스터가 계정의 Kafka로부터 풀링하고, 계정 내 데이터를 변환하여 계정 내 스토리지에 작성합니다.
  6. 클러스터가 상태와 모든 결과를 클러스터 관리자에게 보고합니다.

데이터 엔지니어는 이런 세부적인 사항은 대부분 걱정할 필요가 없고, 코드와 이를 실행하는 Databricks만 작성하면 됩니다.

규정 준수

전 세계의 고객사들이 Databricks를 믿고 가장 민감한 데이터를 맡깁니다. Databricks는 매우 규제가 엄격한 산업의 고유한 규정 준수 요구 사항을 지키기 위한 제어 조치를 취했습니다.

실사 패키지

셀프 서비스 보안 검토를 원한다면 실사 패키지를 다운로드할 수 있습니다. 여기에는 일반적인 규정 준수 문서(예: ISO 인증, 연간 침투 테스트 확인서)가 포함됩니다. 또한, Databricks 계정팀에 문의하여 엔터프라이즈 보안 가이드와 SOC 2 Type II 보고서의 사본을 요청할 수 있습니다.

다운로드

인증 및 표준

배경 이미지

개요

Databricks는 개인 정보 보호를 중요하게 생각합니다. Databricks를 사용하여 분석하는 데이터는 고객과 고객의 조직 모두에게 중요하며, 여러 가지 개인정보 보호법과 규정이 적용될 수 있음을 알고 있습니다.

Databricks가 자신에게 적용되는 규제 프레임워크를 준수하는지 확인하는 데 도움이 될 수 있도록 Databricks의 개인정보 보호정책을 투명하게 설명한 개인정보 보호 FAQ 및 문서를 준비했습니다.

배경 이미지

Databricks 워크스페이스의 보안 인시던트 조사 지원

워크스페이스 데이터가 해킹되었거나 데이터 내에서 불일치 또는 부정확한 내용을 발견한 경우, 즉시 Databricks로 신고하세요.

Databricks에서 보낸 스팸 또는 의심스러운 커뮤니케이션 신고

사기성이거나, 부적절하거나, 부적절한 콘텐츠/멀웨어가 있는 스팸이나 커뮤니케이션을 받은 경우, 즉시 Databricks로 연락해주세요.

Databricks 제품에 대한 내부 취약성 스캐너 보고서

취약성 스캔 보고서를 분석하는 데 도움을 제공하려면 Databricks 지원 채널을 통해 지원 요청을 보내고, 제품 버전, 구체적인 구성, 구체적인 보고서 결과, 스캔 실행 방법을 제출하세요.

CVE가 Databricks 워크스페이스 또는 런타임에 미치는 영향

타사 CVE 또는 Databricks CVE가 미치는 영향에 대한 정보가 필요한 경우, Databricks 지원 채널을 통해 지원 요청을 보내고, National Vulnerability Database에서 확인한 CVE 설명, 심각도, 참조를 제공하세요.

Databricks 제품 또는 서비스의 버그 신고

Databricks 제품에서 재현 가능한 취약성을 발견한 경우, 문제를 해결할 수 있도록 신고를 부탁드립니다. HackerOne에서 지원하는 공개 버그 포상 제도에 참여하세요.

배경 이미지

HIPAA

HIPAA는 보호된 건강 정보에 대한 다양한 보호 조치가 포함된 미국 규정입니다. Databricks는 HIPAA를 준수하는 배포 옵션이 있습니다.

지원되는 클라우드

지역

Azure 멀티 테넌트 — 모든 지역

AWS 싱글 테넌트 — 모든 지역

AWS 멀티 테넌트 — us-east-1, us-east-2, ca-central-1, us-west-2