これまでの歩み

データウェアハウスから
脱却のとき

データウェアハウスは、CD、使い捨てカメラ、フロッピーディスクをはじめとする 40 年前のイノベーションと同様に、大きな成功を収めました。しかし今、新たなユースケースが新たなテクノロジーの創出を牽引しています。CD はストリーミング配信ができません。フィルム式カメラでは写真の共有ができません。フロッピーディスクは、無限大の容量を持つクラウドストレージとは比較にもなりません。同様に、データウェアハウスでは AI を実行できません。

シンプルに

AI は、あらゆる組織において重要な課題となっています。しかし、複雑で陳腐化した従来のインフラでは、AI に求められる価値を実現できません。現在のニーズを満たし、かつ、将来を見据えた新たなデータアーキテクチャへの移行が必要です。

Discover
Lakehouse
レイクハウスの夜明け

データと AI の新たな時代へ

データレイクハウスは、データウェアハウスとデータレイクが持つ最良の要素を単一のプラットフォームで実現するオープンデータアーキテクチャです。

構造化、半構造化、非構造化を問わず、あらゆるデータをオープンデータレイクに保存すると同時に、データウェアハウスの利点であるデータの品質、性能、セキュリティ、ガバナンスを維持します。レイクハウスは、ビジネスインテリジェンス(BI)、SQL 分析、リアルタイムのデータアプリケーション、データサイエンス、機械学習を単一のプラットフォームでサポートする唯一のデータアーキテクチャです。

レイクハウスの構造

単一のプラットフォームが
あらゆるユースケースをサポート

Delta Lake

カギとなる要素

Delta Lake は、データレイクに信頼性、セキュリティ、性能をもたらすオープンソースプロジェクトであり、Amazon S3、Azure Data Lake Store、Google Cloud Storage などの既存のストレージシステム上でのレイクハウス構築のための重要な役割を担っています。

Delta Lake のデータはオープンフォーマットで保存されます。そのため、オープンソースの広範なエコシステムへのアクセスが可能になり、独自のフォーマットによるデータのロックインを回避できます。数千の企業が毎月数エクサバイトのデータを Delta Lake で処理しています。


Delta Lake について詳しく見る→

hex-bg

レイクハウスを比較

DWH にない機能を提供

レイクハウスはデータウェアハウス(DWH)の限界を解決します。あらゆる種類のデータを扱うと同時に、従来の DWH ワークロードと機械学習をネイティブにサポートします。既存のデータレイクの機能を補完し、あらゆるデータとあらゆるユースケースをサポートする単一のオープンシステムを構築します。

データウェアハウス レイクハウス
データフォーマット
データフォーマット クローズド オープン
データの種類
データの種類 構造化データ* あらゆる種類のデータ
スケーラビリティ
スケーラビリティ 限定的** 高度なスケーラビリティ
コスト
コスト $$$ $
ユースケース
ユースケース BI、SQL BI、SQL、ML、リアルタイムアプリ
データアクセス
データアクセス SQL のみ SQL、R、Python その他の言語でファイルへの直接アクセスを可能にするオープン API
信頼性
信頼性 ACID トランザクションによる高品質、高信頼性データ ACID トランザクションによる高品質、高信頼性データ
ガバナンス
ガバナンス テーブルの行/列レベルの高粒度のセキュリティとガバナンス テーブルの行/列レベルの高粒度のセキュリティとガバナンス
性能
性能

*半構造化データは限定的にサポート
**スケーリングでコストは爆発的に増大

データウェアハウスの父と称されるビル・インモン(Bill Inmon)氏推奨

ビル・インモン氏による eBook「Building the Data Lakehouse(データレイクハウスの構築)」

本の表紙

データレイクを変える

レイクハウスは、データレイクがスワンプ化する根本的な要因を解決します。データレイクに、トランザクション、スキーマ、ガバナンスなど、DWH の持つ主要な機能を補完してデータ品質を向上させ、さらに、複数の手法を用いた性能の最適化により分析を高速化します。オープンデータレイクにデータ管理機能や性能の最適化がもたらされ、レイクハウスが BI・ML アプリケーションをネイティブにサポートします。

データレイク レイクハウス
データフォーマット
データフォーマット オープン オープン
データの種類
データの種類 あらゆる種類のデータ あらゆる種類のデータ
スケーラビリティ
スケーラビリティ 高度なスケーラビリティ 高度なスケーラビリティ
コスト
コスト $ $
ユースケース
ユースケース ML BI、SQL、ML、リアルタイムアプリ
データアクセス
データアクセス 高度なスケーラビリティ SQL、R、Python その他の言語でファイルへの直接アクセスを可能にするオープン API
信頼性
信頼性 低品質、データスワンプ ACID トランザクションによる高品質、高信頼性データ
ガバナンス
ガバナンス ファイルレベルのセキュリティで、ガバナンスが弱い テーブルの行/列レベルの高粒度のセキュリティとガバナンス
性能
性能

データウェアハウスの父と称されるビル・インモン(Bill Inmon)氏推奨

ビル・インモン氏による eBook「Building the Data Lakehouse(データレイクハウスの構築)」

本の表紙

Databricks のレイクハウス

世界初、唯一のクラウド型レイクハウスプラットフォーム

Databricks のレイクハウスプラットフォームは、AWS、Microsoft Azure、Google Cloud をサポートしており、クラウド上のサービスとして管理されます。レイクハウスは、データレイクのデータをあらゆるデータドリブンなユースケースで利用可能にします。

高速で信頼性の高いデータパイプラインの構築を可能にしてデータエンジニアを支援し、従来のデータウェアハウスよりも高速な SQL クエリによる BI を可能にしてデータアナリストを支援します。データサイエンティストは MLOps を効率化できます。データに関わる全てのチームが 1 つのプラットフォームを共有することで、インフラコストが大幅に低減し、生産性がアップし、イノベーションが加速します。

BI、SQL
データレイクのデータを直接分析

Databricks は、データレイクでのデータ分析を可能にし、データウェアハウスの性能をデータレイクの経済性で提供します。Databricks のレイクハウスプラットフォームは、オープンソーススタンダードを活用することでデータのロックインを回避し、データレイクに本来欠けている信頼性、品質、性能を補完し、従来のクラウドデータウェアハウスに比べて最大 6 倍の価格性能を実現します。

データエンジニアリング
データの鮮度と信頼性を容易に確保

Databricks は、データの取り込み、処理、スケジューリングなど、エンドツーエンドのエンジニアリングソリューションを提供します。パイプラインの構築と管理を自動化し、データレイク上での ETL ワークロードの直接実行を可能にします。これにより、データエンジニアはデータの品質と信頼性を高めることに注力できるようになり、知見の抽出が加速します。

ストリーミング処理
シンプルでスケーラブルな、耐障害性に優れたストリーミング処理

データチームは、処理を中断することなく膨大なデータから有用な知見を抽出し、わずかなコストでサービスを保証できます。また、Databricks をストリーミングのユースケースに利用することで、低レイテンシでスケーラブルかつ耐障害性に優れた、データドリブンのリアルタイムアプリケーションを構築できます。

データサイエンス・ML
機械学習のフルライフサイクル

Databricks は、データサイエンスと機械学習のための完全でオープンなプラットフォームを提供します。Databricks は、高品質、高性能データパイプラインと高度な機械学習の機能を、すぐに利用できる状態で提供します。統合プラットフォームがデータチームと ML チームのコラボレーションを支援し、特徴量エンジニアリングから本番運用まで、ML ライフサイクル全般を効率化します。

基本的なセキュリティ・管理
オープンデータレイクのロゴ
基本的なセキュリティ・管理

Databricks により、高粒度のアクセス制御によるデータ保護および、既存のクラウドネイティブなセキュリティポリシーや認証情報管理システムを使用したセキュリティの拡張が可能になり、プライバシーとコンプライアンスが確保され、隔離されたワークスペースを構築できます。プラットフォーム管理者は、エンドツーエンドのエクスペリエンスを容易に管理し、各ワークスペースのコストを制御できます。

データ処理・管理・ガバナンス
オープンデータレイクのロゴ
データ処理・管理・ガバナンス

自動化された信頼性の高い ETL、オープンでセキュアなデータ共有、主要なクラウドを包括的にサポートするガバナンスにより、Databricks はデータ管理をシンプルにし、コスト効率とスケーラビリティに優れたレイクハウスの基盤を提供します。

オープンなデータレイク
オープンデータレイクのロゴ
データスワンプからの脱却

組織における現行のデータレイクには、既に多くの構造化、半構造化、非構造化データが保存されています。データレイクのオープン性と柔軟性に、堅固な信頼性と品質を融合させ、あらゆる分析ユースケースの大規模なニーズをサポートします。

Discover!

マウスオーバーで Databricks レイクハウスの各階層の説明が表示されます。

データレイクのデータを直接分析

Databricks は、データレイクでのデータ分析を可能にし、データレイクの経済性でデータウェアハウスの性能を提供します。Databricks のレイクハウスプラットフォームは、オープンソーススタンダードを活用することでデータのロックインを回避し、データレイクに本来欠けている信頼性、品質、性能を補完し、従来のクラウドデータウェアハウスに比べて最大 6 倍の価格性能を実現します。

データレイクのデータを直接分析

Databricks は、データレイクでのデータ分析を可能にし、データウェアハウスの性能をデータレイクの経済性で提供します。Databricks のレイクハウスプラットフォームは、オープンソーススタンダードを活用することでデータのロックインを回避し、データレイクに本来欠けている信頼性、品質、性能を補完し、従来のクラウドデータウェアハウスに比べて最大 6 倍の価格性能を実現します。

データの鮮度と信頼性を容易に確保

Databricks は、データの取り込み、処理、スケジューリングなど、エンドツーエンドのエンジニアリングソリューションを提供します。パイプラインの構築と管理を自動化し、データレイク上での ETL ワークロードの直接実行を可能にします。これにより、データエンジニアはデータの品質と信頼性を高めることに注力できるようになり、知見の抽出が加速します。

データチームは、処理を中断することなく膨大なデータから有用な知見を抽出し、わずかなコストでサービスを保証できます。また、Databricks をストリーミングのユースケースに利用することで、低レイテンシでスケーラブルかつ耐障害性に優れた、データドリブンのリアルタイムアプリケーションを構築できます。

機械学習のフルライフサイクル

Databricks は、データサイエンスと機械学習のための完全でオープンなプラットフォームを提供します。Databricks は、高品質、高性能データパイプラインと高度な機械学習の機能を、すぐに利用できる状態で提供します。統合プラットフォームがデータチームと ML チームのコラボレーションを支援し、特徴量エンジニアリングから本番運用まで、ML ライフサイクル全般を効率化します。

Delta Lake Databricks により、高粒度のアクセス制御によるデータ保護および、既存のクラウドネイティブなセキュリティポリシーや認証情報管理システムを使用したセキュリティの拡張が可能になり、プライバシーとコンプライアンスが確保され、隔離されたワークスペースを構築できます。プラットフォーム管理者は、エンドツーエンドのエクスペリエンスを容易に管理し、各ワークスペースのコストを制御できます。

Delta Lake自動化された信頼性の高い ETL、オープンでセキュアなデータ共有、主要なクラウドを包括的にサポートするガバナンスにより、Databricks はデータ管理をシンプルにし、コスト効率とスケーラビリティに優れたレイクハウスの基盤を提供します。

高品質、高信頼性のデータ 組織における現行のデータレイクには、既に多くの構造化、半構造化、非構造化データが保存されています。データレイクのオープン性と柔軟性に、堅固な信頼性と品質を融合させ、あらゆる分析ユースケースの大規模なニーズをサポートします。
導入事例

多くのグローバル企業が
レイクハウスに移行しています