Chiffrement du stockage et du calcul avec contrôle de révocation
par Ben Hagan
Le chiffrement au repos est une base du cloud, mais pour les entreprises opérant dans des environnements hautement réglementés, les organisations doivent contrôler la racine de confiance. Les clés gérées par le client (CMK) de Lakebase offrent ce contrôle en vous permettant d'utiliser vos propres clés de chiffrement de votre service de gestion des clés (KMS), par exemple AWS KMS, Azure Key Vault ou Google Cloud KMS, pour protéger et gérer les données tout au long du cycle de vie de Lakebase.
Les clés gérées par le client (CMK) de Lakebase offrent une gestion et un contrôle complets sur l'ensemble de l'architecture, contrairement aux bases de données gérées classiques. Alors que les bases de données traditionnelles ne chiffrent généralement que le stockage, Lakebase CMK gère à la fois le stockage persistant et le calcul éphémère.
L'architecture de Lakebase sépare le stockage et le calcul en couches indépendantes, une conception qui permet une mise à l'échelle élastique et des opérations sans serveur. La couche de stockage (Pageserver et Safekeeper) conserve les données persistantes à long terme dans le stockage d'objets et les caches locaux, tandis que la couche de calcul exécute des instances Postgres indépendantes qui augmentent, diminuent ou se réduisent à zéro en fonction de la demande.

Cette séparation crée un défi unique pour le chiffrement : les deux couches (ainsi que tous leurs caches dans l'architecture) doivent être chiffrées et rester sous le contrôle du client. Lakebase CMK répond à cela grâce à un modèle hiérarchique de chiffrement par enveloppe.
Le chiffrement par enveloppe est un modèle de sécurité où les données sont chiffrées avec des clés de données uniques (DEK), et ces clés sont elles-mêmes chiffrées par des clés de niveau supérieur. Cette hiérarchie garantit que votre CMK ne quitte jamais votre KMS cloud ; Databricks ne reçoit que des versions enveloppées (chiffrées) des clés nécessaires pour déchiffrer les données. Le modèle permet également un chiffrement haute performance à grande échelle, car le KMS n'est contacté que pour déballer les clés, et non pour chiffrer chaque bloc de données. Cette architecture permet une rotation transparente des clés et une révocation rapide si nécessaire.
La hiérarchie se compose de trois niveaux :

Lorsque les données doivent être accessibles, les composants Lakebase déballent la DEK nécessaire à l'aide de clés obtenues auprès de votre KMS. En cas de révocation, le déballage échouera, rendant les données cryptographiquement inaccessibles. Dans le cadre de ce processus, toutes les instances de calcul éphémères sont terminées pour supprimer l'accès aux données mises en cache.
L'implémentation pratique diffère entre le stockage et le calcul :
Tous les segments de données gérés par Lakebase, y compris les segments WAL (journaux de transactions stockés par Safekeeper) et les fichiers de données, sont chiffrés avec des clés protégées par votre CMK. Cela offre une défense en profondeur : les données au repos sont protégées par des clés de chiffrement sous votre contrôle, et non par Databricks.
La VM de calcul Postgres contient des données éphémères utilisées par le système d'exploitation et PostgreSQL, par exemple des caches de performance, des artefacts WAL, des fichiers temporaires, etc. Il est donc essentiel que toutes ces données soient également gérées sous une CMK. La CMK protège ces données de calcul éphémères avec :
La mise en œuvre suit le modèle standard de délégation de compte à espace de travail Databricks. Cette séparation des tâches garantit que les administrateurs de sécurité peuvent gérer les clés sans avoir besoin d'accéder aux données elles-mêmes. Une fois qu'une clé est configurée au niveau de l'espace de travail, tous les projets Lakebase utilisent la CMK dans le cadre du flux de travail de chiffrement.
Un administrateur de compte crée une configuration de clé dans la console de compte Databricks. Cet objet contient l'identifiant de la clé (ARN pour AWS KMS, URL du Key Vault pour Azure ou ID de clé pour Google Cloud KMS) et le rôle IAM ou le principal de service que Lakebase assumera pour effectuer les opérations d'enveloppement et de déballage.
La configuration est ensuite mappée à un espace de travail spécifique. Pour Lakebase, cela signifie :
Lakebase prend en charge la rotation transparente des clés. Lorsque vous faites pivoter votre CMK dans la console de votre fournisseur de cloud :
Étant donné que la CMK réside dans votre compte cloud, les opérations cryptographiques sur votre clé sont enregistrées dans le service d'audit de votre fournisseur (AWS CloudTrail, Azure Monitor ou Google Cloud Audit Logs).
Si votre organisation exige le plus haut niveau de contrôle cryptographique sur vos charges de travail Postgres, Lakebase CMK est désormais disponible pour les clients du niveau Entreprise.
Prêt à sécuriser vos données ? Contactez votre équipe de compte Databricks pour activer les clés gérées par le client pour votre espace de travail, ou visitez notre documentation technique pour examiner les politiques IAM et les configurations KMS préalables.
Pas encore client Databricks ? Commencez avec un essai.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.