2024年6月6日

BigQuery が Delta Lake をファーストパーティでサポートします

BigQuery 上の Delta Lake: Delta Lake に保存されたデータを BigQuery 内の他の形式のデータと組み合わせ、削除ベクトルなどの高度な機能をサポートします。

Delta Lakeは毎月 2,000 万回以上ダウンロードされており、Delta Lakeのファーストパーティサポートが追加されたBigQuery は、 Deltaの豊富なコネクタエコシステムをベースとし、 Databricksとシームレスに統合されています。このブログでは、次の内容を取り上げます。

Google Cloud上のDelta Lake
DatabricksとBigQueryを使用したオープンなデータレイクハウスの構築
BigQuery で Delta Lake を読み取る方法

Google Cloud上のDelta Lake

Delta Lakeは最適化されたストレージレイヤーであり、エンタープライズデータレイクのパフォーマンスと信頼性を強化します。Delta Delta は、 Fortune 500 企業の 60% を含む 10,000 社以上の企業で使用されています。完全にオープンソース化されたLinux Foundationのプロジェクトとして、Delta Lakeは、多くの一般的なオープンソースフレームワークと商用エンジンのサポートによる豊富なコネクタエコシステムを提供しています。BigQueryは現在、統合されたDelta Lakeサポートを提供し、Delta LakeエコシステムをGoogle Cloudに拡張しています。

BigQueryサポートにより、単一のデータコピーからDeltaを記述し、引き続き Google Cloudネイティブサービスのダウンストリームにアクセスできます。 BigQueryのDeltaコネクタにはDelta削除ベクトル、列マッピング、リキッドクラスタリングなどの最新の Delta イノベーションのサポートが含まれています。

DatabricksとBigQueryのレイクハウス

レイクハウスアーキテクチャは、データレイクの柔軟性とデータウェアハウスの信頼性を兼ね備えています。BigQuery のDelta Lake サポートは BigLake を通じて有効になります。 BigLake は、顧客がクラウドオブジェクトストレージ上にオープンテーブル形式でデータを保存できるようにするストレージエンジンであり、他のプラットフォームでも使用できる柔軟性を提供します。顧客は、Delta LakeとBigLakeを使って、データウェアハウスとデータレイクを統合ストレージレイヤーに集約することができます。

アーキテクチャ図

Delta Lakeでデータレイクを標準化することで、次のことが可能になります。

データアクセスを統合:エクスポート、コピー、マニフェストファイルの使用を必要とせずに、Databricks と BigQuery の両方でクエリできるデータの単一の信頼できるコピーを維持します。
データを効率的に共有: BigQuery、Databricks、Dataproc、Dataflow などのさまざまな処理エンジン間でデータをシームレスに共有し、効率的なデータ活用とコラボレーションを実現します。

Google CloudのデータおよびAIテクノロジーパートナーシップ担当ディレクターの Ritika Suri 氏は、次のように述べています。「Google Cloudは、オープンで相互運用可能なデータエコシステムの促進に取り組んでいます。」「BigQuery に Delta Lake のサポートを追加したことは、データ管理のための包括的なクラウドソリューションセットを備えたオープンプラットフォームを提供するという当社の取り組みの証です。」

BigQuery で Delta Lake を読む

ほんの数ステップで BigQuery で Delta Lake を読み取ることができます。まず、Databricks で Delta テーブルを作成しましょう。

BigQueryのテーブルにアクセスするには、クラウドストレージへのクラウドリソース接続と BigQuery での必要な権限が BigQueryに必要です。URI として Delta Lake プレフィックスを指定して、BigQuery で Delta Lake テーブルを作成します：

Delta テーブルをクエリすると、BigQuery はプレフィックスの下のデータを読み取り、テーブルの現在のバージョンを識別します。BigQuery はデータとスキーマの変更を自動的に検出するため、テーブルメタデータを手動で更新しなくても最新のスナップショットを読み取ることができます。

BigQuery で Delta Lake を読み取るのはとても簡単です。 Delta Lake を使用すると、データファイルを複製したり、テーブルメタデータを手動で維持したりすることなく、Databricks と BigQuery の両方を使用でき、最新の Delta の機能も活用できます。

Databricks では、Delta Lake を通じてエンタープライズデータへのオープンアクセスを実現できることを嬉しく思っています。当社は、Google Cloudとのパートナーシップに引き続き投資し、お客様がDatabricksをBigQueryやその他の Google Cloud サービスと統合できるよう支援します。

Delta Lakeと Google Cloudとのパートナーシップの詳細については、2024 年 6 月 10 日から 13 日まで開催されるData and AI Summitのセッションでご覧いただけます。セッションはサンフランシスコでライブ配信され、ハイブリッド形式の仮想セッションとなります。

BigQuery が Delta Lake をファーストパーティでサポートします

Google Cloud上のDelta Lake

DatabricksとBigQueryのレイクハウス

BigQuery で Delta Lake を読む

最新の投稿を受信トレイで受け取る

Sign up