データウェアハウスから
脱却のとき
データウェアハウスは、CD、使い捨てカメラ、フロッピーディスクをはじめとする 40 年前のイノベーションと同様に、大きな成功を収めました。しかし今、新たなユースケースが新たなテクノロジーの創出を牽引しています。CD はストリーミング配信ができません。フィルム式カメラでは写真の共有ができません。フロッピーディスクは、無限大の容量を持つクラウドストレージとは比較にもなりません。同様に、データウェアハウスでは AI を実行できません。
シンプルに
AI は、あらゆる組織において重要な課題となっています。しかし、複雑で陳腐化した従来のインフラでは、AI に求められる価値を実現できません。現在のニーズを満たし、かつ、将来を見据えた新たなデータアーキテクチャへの移行が必要です。
データと AI の新たな時代へ
データレイクハウスは、データウェアハウスとデータレイクが持つ最良の要素を単一のプラットフォームで実現するオープンデータアーキテクチャです。
構造化、半構造化、非構造化を問わず、あらゆるデータをオープンデータレイクに保存すると同時に、データウェアハウスの利点であるデータの品質、性能、セキュリティ、ガバナンスを維持します。レイクハウスは、ビジネスインテリジェンス(BI)、SQL 分析、リアルタイムのデータアプリケーション、データサイエンス、機械学習を単一のプラットフォームでサポートする唯一のデータアーキテクチャです。
単一のプラットフォームが
あらゆるユースケースをサポート
カギとなる要素
DWH にない機能を提供
レイクハウスはデータウェアハウス(DWH)の限界を解決します。あらゆる種類のデータを扱うと同時に、従来の DWH ワークロードと機械学習をネイティブにサポートします。既存のデータレイクの機能を補完し、あらゆるデータとあらゆるユースケースをサポートする単一のオープンシステムを構築します。
データウェアハウス |
|
|
---|---|---|
クローズド | オープン | |
構造化データ* | あらゆる種類のデータ | |
限定的** | 高度なスケーラビリティ | |
$$$ | $ | |
BI、SQL | BI、SQL、ML、リアルタイムアプリ | |
SQL のみ | SQL、R、Python その他の言語でファイルへの直接アクセスを可能にするオープン API | |
ACID トランザクションによる高品質、高信頼性データ | ACID トランザクションによる高品質、高信頼性データ | |
テーブルの行/列レベルの高粒度のセキュリティとガバナンス | テーブルの行/列レベルの高粒度のセキュリティとガバナンス | |
高 | 高 |
*半構造化データは限定的にサポート
**スケーリングでコストは爆発的に増大
データウェアハウスの父と称されるビル・インモン(Bill Inmon)氏推奨
ビル・インモン氏による eBook「Building the Data Lakehouse(データレイクハウスの構築)」
データレイクを変える
レイクハウスは、データレイクがスワンプ化する根本的な要因を解決します。データレイクに、トランザクション、スキーマ、ガバナンスなど、DWH の持つ主要な機能を補完してデータ品質を向上させ、さらに、複数の手法を用いた性能の最適化により分析を高速化します。オープンデータレイクにデータ管理機能や性能の最適化がもたらされ、レイクハウスが BI・ML アプリケーションをネイティブにサポートします。
データレイク |
|
|
---|---|---|
オープン | オープン | |
あらゆる種類のデータ | あらゆる種類のデータ | |
高度なスケーラビリティ | 高度なスケーラビリティ | |
$ | $ | |
ML | BI、SQL、ML、リアルタイムアプリ | |
高度なスケーラビリティ | SQL、R、Python その他の言語でファイルへの直接アクセスを可能にするオープン API | |
低品質、データスワンプ | ACID トランザクションによる高品質、高信頼性データ | |
ファイルレベルのセキュリティで、ガバナンスが弱い | テーブルの行/列レベルの高粒度のセキュリティとガバナンス | |
低 | 高 |
データウェアハウスの父と称されるビル・インモン(Bill Inmon)氏推奨
ビル・インモン氏による eBook「Building the Data Lakehouse(データレイクハウスの構築)」
世界初、唯一のクラウド型レイクハウスプラットフォーム
Databricks のレイクハウスプラットフォームは、AWS、Microsoft Azure、Google Cloud をサポートしており、クラウド上のサービスとして管理されます。レイクハウスは、データレイクのデータをあらゆるデータドリブンなユースケースで利用可能にします。
高速で信頼性の高いデータパイプラインの構築を可能にしてデータエンジニアを支援し、従来のデータウェアハウスよりも高速な SQL クエリによる BI を可能にしてデータアナリストを支援します。データサイエンティストは MLOps を効率化できます。データに関わる全てのチームが 1 つのプラットフォームを共有することで、インフラコストが大幅に低減し、生産性がアップし、イノベーションが加速します。
BI、SQL
データレイクのデータを直接分析
Databricks は、データレイクでのデータ分析を可能にし、データウェアハウスの性能をデータレイクの経済性で提供します。Databricks のレイクハウスプラットフォームは、オープンソーススタンダードを活用することでデータのロックインを回避し、データレイクに本来欠けている信頼性、品質、性能を補完し、従来のクラウドデータウェアハウスに比べて最大 6 倍の価格性能を実現します。
データエンジニアリング
データの鮮度と信頼性を容易に確保
Databricks は、データの取り込み、処理、スケジューリングなど、エンドツーエンドのエンジニアリングソリューションを提供します。パイプラインの構築と管理を自動化し、データレイク上での ETL ワークロードの直接実行を可能にします。これにより、データエンジニアはデータの品質と信頼性を高めることに注力できるようになり、知見の抽出が加速します。
ストリーミング処理
シンプルでスケーラブルな、耐障害性に優れたストリーミング処理
データチームは、処理を中断することなく膨大なデータから有用な知見を抽出し、わずかなコストでサービスを保証できます。また、Databricks をストリーミングのユースケースに利用することで、低レイテンシでスケーラブルかつ耐障害性に優れた、データドリブンのリアルタイムアプリケーションを構築できます。
データサイエンス・ML
機械学習のフルライフサイクル
Databricks は、データサイエンスと機械学習のための完全でオープンなプラットフォームを提供します。Databricks は、高品質、高性能データパイプラインと高度な機械学習の機能を、すぐに利用できる状態で提供します。統合プラットフォームがデータチームと ML チームのコラボレーションを支援し、特徴量エンジニアリングから本番運用まで、ML ライフサイクル全般を効率化します。
基本的なセキュリティ・管理
基本的なセキュリティ・管理
Databricks により、高粒度のアクセス制御によるデータ保護および、既存のクラウドネイティブなセキュリティポリシーや認証情報管理システムを使用したセキュリティの拡張が可能になり、プライバシーとコンプライアンスが確保され、隔離されたワークスペースを構築できます。プラットフォーム管理者は、エンドツーエンドのエクスペリエンスを容易に管理し、各ワークスペースのコストを制御できます。
データ処理・管理・ガバナンス
データ処理・管理・ガバナンス
自動化された信頼性の高い ETL、オープンでセキュアなデータ共有、主要なクラウドを包括的にサポートするガバナンスにより、Databricks はデータ管理をシンプルにし、コスト効率とスケーラビリティに優れたレイクハウスの基盤を提供します。
オープンなデータレイク
データスワンプからの脱却
組織における現行のデータレイクには、既に多くの構造化、半構造化、非構造化データが保存されています。データレイクのオープン性と柔軟性に、堅固な信頼性と品質を融合させ、あらゆる分析ユースケースの大規模なニーズをサポートします。
Discover!
マウスオーバーで Databricks レイクハウスの各階層の説明が表示されます。
データレイクのデータを直接分析
Databricks は、データレイクでのデータ分析を可能にし、データレイクの経済性でデータウェアハウスの性能を提供します。Databricks のレイクハウスプラットフォームは、オープンソーススタンダードを活用することでデータのロックインを回避し、データレイクに本来欠けている信頼性、品質、性能を補完し、従来のクラウドデータウェアハウスに比べて最大 6 倍の価格性能を実現します。
データレイクのデータを直接分析
Databricks は、データレイクでのデータ分析を可能にし、データウェアハウスの性能をデータレイクの経済性で提供します。Databricks のレイクハウスプラットフォームは、オープンソーススタンダードを活用することでデータのロックインを回避し、データレイクに本来欠けている信頼性、品質、性能を補完し、従来のクラウドデータウェアハウスに比べて最大 6 倍の価格性能を実現します。
データの鮮度と信頼性を容易に確保
Databricks は、データの取り込み、処理、スケジューリングなど、エンドツーエンドのエンジニアリングソリューションを提供します。パイプラインの構築と管理を自動化し、データレイク上での ETL ワークロードの直接実行を可能にします。これにより、データエンジニアはデータの品質と信頼性を高めることに注力できるようになり、知見の抽出が加速します。
機械学習のフルライフサイクル
Databricks は、データサイエンスと機械学習のための完全でオープンなプラットフォームを提供します。Databricks は、高品質、高性能データパイプラインと高度な機械学習の機能を、すぐに利用できる状態で提供します。統合プラットフォームがデータチームと ML チームのコラボレーションを支援し、特徴量エンジニアリングから本番運用まで、ML ライフサイクル全般を効率化します。