Databricks レイクハウスプラットフォームは、バッチ/ストリーミングデータの取り込み、変換を容易にします。さらに、インフラの管理を自動化することで、信頼性の高い本番ワークフローのオーケストレーションを可能にします。また、Databricks は、データ品質の検証機能とソフトウェア開発のベストプラクティスをサポートしており、チームの生産性が向上します。
バッチ/ストリーミングの両方に対応
統合された API を備えた単一のプラットフォームでサイロを排除し、バッチ/ストリーミングデータの大規模な取り込み、変換、増分処理を可能にします。
運用負荷の軽減
Databricks は、インフラと本番ワークフローの運用コンポーネントを自動的に割り当てることで、ツールの運用管理の手間をなくします。したがって、ユーザーはデータに集中できます。
任意のツールを接続
レイクハウスプラットフォームのオープン性により、任意のデータエンジニアリングツールを使用したデータの取り込み、ETL/ELT、オーケストレーションが可能です。
レイクハウスプラットフォームが基盤
レイクハウスプラットフォームは、データ資産の構築と共有、一元管理を可能にし、高速で信頼性の高いデータソースを提供します。
「私たちにとって Databricks は、あらゆる ETL 業務のワンストップショップになりつつあります。レイクハウスを活用すればするほど、ユーザー、プラットフォーム管理者の両方の負担を削減できます。」
仕組み
データ取り込みの簡素化
ETL 処理の自動化
信頼性の高いワークフローのオーケストレーション
エンドツーエンドの観察・監視
次世代のデータ処理エンジン
ガバナンス、信頼性、性能を支える基盤

データ取り込みの簡素化
レイクハウスプラットフォームにデータを取り込み、分析、AI、ストリーミングアプリケーションを一元管理できます。オートローダは、スケジュールされたジョブや連続したジョブにおいて、クラウドストレージにロードされたファイルに対して増分処理を自動で行います。データの状態についての詳細を手動で管理する必要はありません。数十億規模の新しいファイルでもディレクトリにリストすることなく効率的に追跡し、ソースデータからスキーマを自動的に推測し、時間の経過とともにスキーマを進化させることも可能です。アナリストは COPY INTO コマンドを使用すると、SQL を介して Delta Lake へのバッチファイルの取り込みを容易に実行できます。
「データエンジニアリングの生産性が 40% 向上しました。新しいアイデアの開発にかかる時間を数日から数分に短縮し、データの可用性と精度が高まっています。」
Gousto 社 最高技術責任者 Shaun Pearce 氏

ETL 処理の自動化
取り込んだ未加工データは、分析や AI に利用できるように変換する必要があります。Databricks は、Delta Live Tables(DLT)により、データエンジニア、データサイエンティスト、アナリストに強力な ETL 機能を提供します。DLT は、バッチデータやストリーミングデータに ETL および ML パイプラインを構築する、シンプルな宣言型アプローチを使用した初の ETL フレームワークです。インフラ管理、タスクオーケストレーション、エラー処理やリカバリ、性能の最適化といった複雑な運用タスクを自動化します。エンジニアは DLT を使用することで、データをコードとして扱うことができ、テスト、監視、文書化などのソフトウェアエンジニアリングのベストプラクティスを適用し、信頼性の高いパイプラインを大規模に展開できます。

信頼性の高いワークフローのオーケストレーション
Databricks Workflows は、レイクハウスプラットフォームにネイティブで、あらゆるデータ、分析、AI に対応するフルマネージド型のオーケストレーションサービスです。Delta Live Tables と、ジョブの SQL、Spark、ノートブック、dbt、ML モデルなどを含む多様なワークロードのフルライフサイクルのオーケストレーションを可能にします。基盤となるレイクハウスプラットフォームとの緊密な統合により、主要なクラウド上で信頼性の高いワークロードを作成して実行すると同時に、エンドユーザーにシンプルで詳細な一元化された監視を提供します。
「私たちの使命は、地球に電力を供給する方法を変革することです。エネルギー分野のクライアントは、その変革を達成するためにデータ、コンサルティングサービス、調査を必要としています。Databricks ワークフローは、クライアントが必要とする分析情報を提供するスピードと柔軟性を提供します。」
ウッドマッケンジー社 データ部門 VP Yanyan Wu 氏

エンドツーエンドの観察・監視
レイクハウスプラットフォームによって、データと AI のライフサイクル全体が可視化されます。データエンジニアや運用チームは、本番ワークフローの健全性をリアルタイムで確認でき、データ品質の管理や、過去の傾向の把握も可能になります。Databricks Workflows では、本番ジョブと Delta Live Tables パイプラインの健全性や性能を追跡するデータフローグラフやダッシュボードにアクセスできます。また、イベントログが Delta Lake のテーブルとして公開されるため、性能、データ品質、信頼性のメトリクスをあらゆる角度から監視・可視化できます。

次世代のデータ処理エンジン
Databricks のデータエンジニアリングは、Apache Spark API と互換性のある次世代エンジン Photon を実装し、数千ノードの自動スケーリングに対応すると同時に、記録的な価格性能を実現しています。Spark 構造化ストリーミングにより、バッチおよびストリーム処理の単一の統合 API が提供されるため、コードの変更や新しいスキルの習得なしに、レイクハウスでのストリーミングを容易に導入できます。
最先端のデータガバナンス、信頼性、性能
Databricks のデータエンジニアリングでは、レイクハウスプラットフォームの基本コンポーネントである Unity Catalog と Delta Lake のメリットを享受できます。Delta Lake は、ACIDトランザクションによる信頼性、スケーラブルなメタデータ処理、高速性能を提供するオープンソースのストレージフォーマットで、未加工データを最適化します。Unity Catalog と組み合わせることで、あらゆるデータと AI 資産に対するきめ細かなガバナンスを実現します。単一の一貫性のあるモデルを使用してクラウド全体でデータの発見、アクセス、共有ができるため、ガバナンスが簡素化されます。また、Unity Catalog は、他の組織と容易かつセキュアにデータを共有するための業界初のオープンプロトコル Delta Sharing をネイティブにサポートしています。
データブリックスソリューションへの移行
Hadoop やエンタープライズ DWH などのレガシーシステムに関連するデータサイロ、パフォーマンス低下、高いコストにうんざりしていませんか?Databricks レイクハウスに移行することで、あらゆるデータ、分析、AI のユースケースに対応する最新のプラットフォームが実現します。
統合
データチームに最大限の柔軟性を提供します。Partner Connect とテクノロジーパートナーのエコシステムを活用し、主要なデータエンジニアリングツールとシームレスに統合できます。例えば、Fivetran でビジネスクリティカルなデータを取り込み、dbt を使用してインプレースで変換し、Apache Airflow でパイプラインをオーケストレーションするといったことが可能です。
データインジェストと ETL
+ Apache SparkTM 互換クライアント