メインコンテンツへジャンプ

データエンジニアリング

数千万の本番ワークロードが日々 Databricks 上で実行されています

data-engineering-header

Databricks レイクハウスプラットフォームは、バッチ/ストリーミングデータの取り込み、変換を容易にします。さらに、インフラの管理を自動化することで、信頼性の高い本番ワークフローのオーケストレーションを可能にします。また、Databricks は、データ品質の検証機能とソフトウェア開発のベストプラクティスをサポートしており、チームの生産性が向上します。

Operate from First Principles

バッチ/ストリーミングの両方に対応

統合された API を備えた単一のプラットフォームでサイロを排除し、バッチ/ストリーミングデータの大規模な取り込み変換、増分処理を可能にします。

Raise the Bar

運用負荷の軽減

Databricks は、インフラと本番ワークフローの運用コンポーネントを自動的に割り当てることで、ツールの運用管理の手間をなくします。したがって、ユーザーはデータに集中できます。

We Put the Company First

任意のツールを接続

データインテリジェンスプラットフォームのオープン性により、任意のデータエンジニアリングツールを使用したデータの取り込み、ETL/ELT、オーケストレーションが可能です。

multicloud

レイクハウスアーキテクチャが基盤

データインテリジェンスプラットフォームは、データ資産の構築と共有、一元管理を可能にし、高速で信頼性の高いデータソースを提供します。

「私たちにとって Databricks は、あらゆる ETL 業務のワンストップショップになりつつあります。レイクハウスを活用すればするほど、ユーザー、プラットフォーム管理者の両方の負担を削減できます。」

YipitData 社 エンジニアリングマネージャー Hillevi Crognale 氏

データエンジニアリングの機能

demarketecture

データ取り込みの簡素化

ETL 処理の自動化

信頼性の高いワークフローのオーケストレーション

エンドツーエンドの観察・監視

次世代のデータ処理エンジン

ガバナンス、信頼性、性能を支える基盤

dataIngestion

データ取り込みの簡素化

レイクハウスプラットフォームにデータを取り込み、分析、AI、ストリーミングアプリケーションを一元管理できます。オートローダは、スケジュールされたジョブや連続したジョブにおいて、クラウドストレージにロードされたファイルに対して増分処理を自動で行います。データの状態についての詳細を手動で管理する必要はありません。数十億規模の新しいファイルでもディレクトリにリストすることなく効率的に追跡し、ソースデータからスキーマを自動的に推測し、時間の経過とともにスキーマを進化させることも可能です。アナリストは COPY INTO コマンドを使用すると、SQL を介して Delta Lake へのバッチファイルの取り込みを容易に実行できます。

「データエンジニアリングの生産性が 40% 向上しました。新しいアイデアの開発にかかる時間を数日から数分に短縮し、データの可用性と精度が高まっています。」
Gousto 社 最高技術責任者 Shaun Pearce 氏

automated-etl-processing

ETL 処理の自動化

取り込んだ未加工データは、分析や AI に利用できるように変換する必要があります。Databricks は、Delta Live Tables(DLT)により、データエンジニア、データサイエンティスト、アナリストに強力な ETL 機能を提供します。DLT は、バッチデータやストリーミングデータETL および ML パイプラインを構築する、シンプルな宣言型アプローチを使用した初の ETL フレームワークです。インフラ管理、タスクオーケストレーション、エラー処理やリカバリ、性能の最適化といった複雑な運用タスクを自動化します。エンジニアは DLT を使用することで、データをコードとして扱うことができ、テスト、監視、文書化などのソフトウェアエンジニアリングのベストプラクティスを適用し、信頼性の高いパイプラインを大規模に展開できます。

reliable-workflow

信頼性の高いワークフローのオーケストレーション

Databricks Workflows は、レイクハウスプラットフォームにネイティブで、あらゆるデータ、分析、AI に対応するフルマネージド型のオーケストレーションサービスです。Delta Live Tables と、ジョブの SQL、Spark、ノートブック、dbt、ML モデルなどを含む多様なワークロードのフルライフサイクルのオーケストレーションを可能にします。基盤となるレイクハウスプラットフォームとの緊密な統合により、主要なクラウド上で信頼性の高いワークロードを作成して実行すると同時に、エンドユーザーにシンプルで詳細な一元化された監視を提供します。

「私たちの使命は、地球に電力を供給する方法を変革することです。エネルギー分野のクライアントは、その変革を達成するためにデータ、コンサルティングサービス、調査を必要としています。Databricks ワークフローは、クライアントが必要とする分析情報を提供するスピードと柔軟性を提供します。」

ウッドマッケンジー社 データ部門 VP Yanyan Wu 氏

observability

エンドツーエンドの観察・監視

レイクハウスプラットフォームによって、データと AI のライフサイクル全体が可視化されます。データエンジニアや運用チームは、本番ワークフローの健全性をリアルタイムで確認でき、データ品質の管理や、過去の傾向の把握も可能になります。Databricks Workflows では、本番ジョブと Delta Live Tables パイプラインの健全性や性能を追跡するデータフローグラフやダッシュボードにアクセスできます。また、イベントログが Delta Lake のテーブルとして公開されるため、性能、データ品質、信頼性のメトリクスをあらゆる角度から監視・可視化できます。

next-generation

次世代のデータ処理エンジン

Databricks のデータエンジニアリングは、Apache Spark API と互換性のある次世代エンジン Photon を実装し、数千ノードの自動スケーリングに対応すると同時に、記録的な価格性能を実現しています。Spark 構造化ストリーミングにより、バッチおよびストリーム処理の単一の統合 API が提供されるため、コードの変更や新しいスキルの習得なしに、レイクハウスでのストリーミングを容易に導入できます。

state-of-the-art

最先端のデータガバナンス、信頼性、性能

Databricks のデータエンジニアリングでは、レイクハウスプラットフォームの基本コンポーネントである Unity Catalog と Delta Lake のメリットを享受できます。Delta Lake は、ACIDトランザクションによる信頼性、スケーラブルなメタデータ処理、高速性能を提供するオープンソースのストレージフォーマットで、未加工データを最適化します。Unity Catalog と組み合わせることで、あらゆるデータと AI 資産に対するきめ細かなガバナンスを実現します。単一の一貫性のあるモデルを使用してクラウド全体でデータの発見、アクセス、共有ができるため、ガバナンスが簡素化されます。また、Unity Catalog は、他の組織と容易かつセキュアにデータを共有するための業界初のオープンプロトコル Delta Sharing をネイティブにサポートしています。

データブリックスソリューションへの移行

Hadoop やエンタープライズ DWH などのレガシーシステムに関連するデータサイロ、パフォーマンス低下、高いコストといった課題を抱えていませんか?Databricks データインテリジェンスプラットフォームに移行することで、あらゆるデータ、分析、AI のユースケースに対応する最新のプラットフォームが実現します。

データブリックスソリューションへの移行

統合

データチームに最大限の柔軟性を提供します。Partner Connectテクノロジーパートナーのエコシステムを活用し、主要なデータエンジニアリングツールとシームレスに統合できます。例えば、Fivetran でビジネスクリティカルなデータを取り込み、dbt を使用してインプレースで変換し、Apache Airflow でパイプラインをオーケストレーションするといったことが可能です。

データインジェストと ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

導入事例

comcast
hsbc
laliga
atlassian
columbia
comcast
hsbc
laliga
atlassian
columbia
comcast

さらに詳しく

Delta

Delta Lake

Partner Connect

ワークフロー

Unity

Delta Live Tables

icon-orange-Collaborative-min

Delta Sharing

関連リソース

無料お試し・その他ご相談を承ります