Empower data analysts to ingest, transform and deliver fresh data entirely in SQL
によって ポール・ラッパス, Michael Armbrust, Yannis Papakonstantinou 、 Nitin Sharma による投稿
翻訳:Junichi Maruyama. - Original Blog Link
AWSとAzure上のDatabricks SQL でマテリアライズド・ビューとストリーミング・テーブルが公開されたことをお知らせできることを嬉しく思います。ストリーミングテーブルは、クラウドストレージやメッセージキューからの 増分インジェストを提供します。マテリアライズド・ビューは、新しいデータが到着すると自動的にインクリメンタルに更新されます。これら2つの機能を組み合わせることで、インフラストラクチャを必要としないデータパイプラインが実現し、セットアップが簡単で、新鮮なデータをビジネスに提供することができます。このブログポストでは、アナリストやアナリティクス・エンジニアがデータウェアハウスでデータとアナリティクス・アプリケーションをより効果的に提供するために、これらの新機能がどのように役立つかを探ります。
データウェアハウスとデータエンジニアリングは、データ駆動型の組織にとって極めて重要である。データウェアハウスはアナリティクスとレポーティングの主要な場所として機能し、データエンジニアリングはデータの取り込みと変換のためのデータパイプラインを作成する。
しかし、従来のデータウェアハウスは、ストリーミングの取り込みと変換のために設計されていません。レガシーデータウェアハウスはバッチ処理用に設計されているため、従来のデータウェアハウスで大量のデータを低レイテンシーで取り込むことは、高価で複雑です。その結果、チームは、ウェアハウスの外部で設定を必要とし、中間ステージング場所としてクラウドストレージを使用する必要がある、不器用なソリューションを実装しなければなりませんでした。このようなシステムの管理にはコストがかかり、エラーが発生しやすく、メンテナンスも複雑です。
Databricks Lakehouse Platformは、統合 ソリューションを提供することで、この従来のパラダイムを破壊します。Delta Live Tables (DLT)はデータエンジニアリングとストリーミングを行うのに最適な場所であり、Databricks SQLは既存のデータレイク上のアナリティクスワークロードに対して最大12倍の価格/パフォーマンスを提供します。
さらに、dbtのようなパートナーは、この発表の後半で詳しく説明するこれらのネイティブ機能と統合できるようになりました。
データウェアハウスは、ビジネスインテリジェンス(BI)アプリケーションを通じた内部レポーティングのための分析とデータ配信の主要な場所として機能します。組織は、データウェアハウスを採用する際にいくつかの課題に直面します:
ストリーミング・テーブルとマテリアライズド・ビューは、SQLアナリストにデータ・エンジニアリングのベスト・プラクティスを提供します。S3ロケーションから新しく到着したファイルを継続的に取り込み、シンプルなレポートテーブルを準備する例を考えてみましょう。Databricks SQLを使用すると、アナリストはS3内のファイルをすばやく検出してプレビューし、次の例のようにわずか数行のコードでシンプルなETLパイプラインを数分でセットアップすることができます:
1- S3でデータを発見し、プレビューする
2- ストリーミング方式でデータを取り込む
3- マテリアライズド・ビューを使用してデータをインクリメンタルに集約する
マテリアライズド・ビューは、低速なクエリや頻繁に使用される計算を事前に計算することで、コストを削減し、クエリの待ち時間を改善する。データエンジニアリングの文脈では、データを変換するために使用されます。しかし、(1)エンドユーザクエリとBIダッシュボードをスピードアップし、(2)データを安全に共有するために使用することができるため、データウェアハウスコンテキストにおけるアナリストチームにとっても価値があります。MV は Delta Live Tables 上に構築され、低速なクエリや頻繁に使用される計算を事前に計算することで、クエリのレイテンシを削減 します。

マテリアライズド・ビューの利点
DBSQLにおける取り込みは、ストリーミング・テーブル(ST)を使用して行われます。STはデータを "ブロンズ "テーブルに取り込むための理想的なものと考えることができます。STは、クラウドストレージ、メッセージバス(EventHub、Apache Kafka)など、あらゆるデータソースからの継続的でスケーラブルな取り込みを可能にします。

ストリーミング・テーブルのメリット

Databricks SQLは、SQLおよびデータアナリストがサードパーティのツールに依存することなく、ビジネスのニーズに合わせてデータを簡単に取り込み、クリーニングし、リッチ化できるようにします。すべてをSQLで行うことができ、ワークフローを合理化します。
マテリアライズド・ビューとストリーミング・テーブルを活用することで、以下のことが可能になります:

アドビは、人間の創意工夫を増幅する副操縦士としての人工知能によって、世界をより創造的、生産的、そしてパーソナライズされたものにするというミッションのもと、AIに対する先進的なアプローチをとっています。Databricks SQL上のマテリアライズド・ビューの主要なプレビュー顧客として、アドビはこのミッションの実現に役立つ膨大な技術的およびビジネス上の利点を目の当たりにしてきました:
「マテリアライズド・ビューへの変換により、クエリのパフォーマンスが劇的に改善され、実行時間が 8 分からわずか 3 秒に短縮されました。これにより、私たちのチームはより効率的に作業し、データから得られた洞察に基づいてより迅速な意思決定を行うことができるようになりました。加えて、コスト削減も本当に役立っています。" - アドビ、セキュリティソフトウェアエンジニアリングシニアマネージャー、カーティク・ヴェンカテサン氏

1948 年に設立された Danske Spil はデンマークの国営宝くじで、DB SQL のマテリアライズド・ビューの初期のプレビュー顧客の 1 つでした。データエンジニアリングチームリーダーの Søren Klein 氏が、Danske Spil にとって Materialized Views が非常に価値あるものである理由について語ります:
「Danske Spil 社では、マテリアライズド・ビューを使用して、ウェブサイト追跡データのパフォーマンスを高速化しています。この機能により、不要なテーブルの作成と複雑さを回避し、永続化されたビューの速度を得ることで、エンドユーザーのレポーティングソリューションを高速化しています。" - Danske Spil 社、データエンジニアリングチームリーダー、Søren Klein 氏
Databricksとdbt Labsは、lakehouseアーキテクチャ上でのリアルタイムアナリティクスエンジニアリングを簡素化するために協業します。高い人気を誇るdbtのアナリティクスエンジニアリングフレームワークとDatabricks Lakehouse Platformの組み合わせは、強力な機能を提供します:
データウェアハウスとデータエンジニアリングは、データ駆動型企業にとって重要な要素です。しかし、データウェアハウスとデータエンジニアリングをそれぞれ別個に管理することは、コストがかかり、ミスが発生しやすく、保守が困難です。Databricks Lakehouse Platform は、最高のデータエンジニアリング機能を Databricks SQL にネイティブに統合し、SQL ユーザに統合ソリューションを提供します。さらに、dbtのようなパートナーとの統合により、共同利用者はこれらのユニークな機能を活用して、より迅速な洞察、リアルタイムの分析、合理化されたデータエンジニアリングワークフローを実現することができます。
Get access to Databricks SQL materialized views and streaming tables by following this link. You can also get started today with Databricks and Databricks SQL, or review the documentation for materialized views and streaming tables.
ブログを購読して、最新の投稿を受信トレイにお届けします。