メインコンテンツへジャンプ
<
ページ 15
>

Databricks Workflows によるレイクハウスの本番 dbt プロジェクトのオーケストレーション

信頼性の高いレイクハウスのオーケストレーターである Databricks Workflows が、パブリックプレビューで dbt プロジェクトのオーケストレーションをサポートするようになったことをお知らせします。このプレビューでは、データチームがノートブックから ML モデルまで、レイクハウスの全ての機能とともに dbt プロジェクトを調整することができます。この機能により、オープンソース dbt のユーザーは、SQL を使ったデータ変換や、レイクハウス全体のデータおよび ML パイプラインの監視と保守を簡単に行うことができます。 ジョブが実行されると、dbt プロジェクトが Git リポジトリ から取得され、単一ノードのクラスタが構築され、そこに dbt-core とプロジェクトの依存関係がインストールされます。dbt で生成された...

レイクハウス用データクリーンルームの紹介

翻訳: Masahiko Kitamura オリジナル記事: Introducing Data Clean Rooms for the Lakehouse Lakehouseのデータクリーンルームを発表することで、企業はプライバシーを保護した方法で、顧客やパートナーとあらゆるクラウド上で簡単にコラボレーションできるようになります。データ・クリーン・ルームの参加者は、データのプライバシーを維持しながら、既存のデータを共有、結合し、データ上でPython、R、SQL、Java、Scalaなどあらゆる言語で複雑なワークロードを実行することができます。 外部データの需要がかつてないほど高まる中、組織はデータ主導のイノベーションを促進するため、データを安全に交換し、外部データを利用する方法を模索している。歴史的に、組織はデータ共有ソリューションを活用してパートナーとデータを共有し、データのプライバシーを守るために相互信頼に依存してきた。しかし、一度共有されたデータの管理は放棄され、さまざまなプラットフォームでデータがパート

Databricks レイクハウスプラットフォームでのデータウェアハウスのモデリングと実装

レイクハウスは、データレイクとデータウェアハウスの長所を組み合わせた、新しいデータプラットフォームパラダイムです。多くのユースケースやデータプロダクトを格納できる、大規模なエンタープライズレベルのデータプラットフォームとして設計されています。データレイクとデータウェアハウスを統合した、単一のエンタープライズデータリポジトリとして使用することができます。 データドメイン リアルタイムストリーミングのユースケース データマート 異種データウェアハウス データサイエンス機能ストア、データサイエンスサンドボックス 部門別のセルフサービス型分析サンドボックス ユースケースの多様性を考えると、レイクハウスのプロジェクトによって異なるデータ整理の原則やモデリングテクニックが適用されるかもしれません。技術的には、 Databricks レイクハウスプラットフォーム は、多くの異なるデータモデリング形式をサポートすることができます。この記事では、レイクハウスの Bronze/Silver/Goldデータ編成原則の実装と、異なるデー

Delta Lake で Databricks にスタースキーマを実装するための簡単な 5 ステップ

May 20, 2022 Cary MooreLucas BilbroBrenner Heintz による投稿 in 製品
データウェアハウスの開発者の多くは、常に存在するスタースキーマに精通しています。1990 年代にラルフ・キンボールによって紹介されたスタースキーマは、ビジネスデータをディメンション(時間や商品など)とファクト(金額や数量のトランザクション)に非正規化するために使用されます。スタースキーマは、反復的なビジネス定義の重複を減らすことで、データの保存、履歴の維持、更新を効率的に行い、集計とフィルタリングを高速化します。 ビジネスインテリジェンス(BI)アプリケーションをサポートするスタースキーマの一般的な実装は、慣例化し成功しているため、多くのデータモデルの設計者にとってその実装は極めて容易なものになっています。Databricks では、非常に多くのデータアプリケーションを作成しており、経験則によるベストプラクティスのアプローチ、成果につながることを保証する基本的な実装を常に探求しています。 従来のデータウェアハウスと同様に、Delta Lake でもいくつかの簡単な経験則に従うことで、Delta スタースキーマの結

Delta Live Tables の一般提供開始を発表

Databricks は本日、 Delta Live Tables(DLT) の Amazon AWS と Microsoft Azure クラウドにおける一般公開、および Google Cloud におけるパブリックプレビューの提供開始を発表しました。このブログでは、DLT が大手企業のデータエンジニアやアナリストをどのように支援し、本番環境に対応したストリーミングとバッチパイプラインの簡単な構築や、大規模なインフラストラクチャの自動管理、および、新世代のデータ、分析、AI アプリケーションの提供に役立つかについて解説します。 レイクハウスにおけるシンプルなストリーミングとバッチ ETL ETL(抽出・変換・ロード)に対するストリーミング、バッチワークロードの処理は、分析、データサイエンス、機械学習ワークロードの基本的な取り組みです。企業が生み出す膨大なデータ量がこの傾向を加速させています。しかし、未加工の構造化されていないデータを、クリーンで文書化された信頼のおける情報に処理することは、ビジネスの知見を推進す

Databricks SQL の新機能「クエリプロファイル」でクエリを理解する

February 23, 2022 ビラル・アスラムLucas Cerdan による投稿 in 製品
Databricks SQL は、 Databricks のレイクハウスプラットフォーム における SQL のデータウェアハウス機能とファーストクラスのサポートを提供します。これにより、アナリストは従来のクラウドデータウェアハウスよりもわずかなコストで新たな知見を迅速に発見し、共有できるようになります。 このブログは、Databricks SQL に関するコンテンツシリーズの一部です。Databricks SQL の性能、使いやすさ、ガバナンスにおける重要な機能について解説します。以前の ブログ では、Databricks SQL の強化された最新のユーザーエクスペリエンスについてご紹介しました。今回は、ユーザーがクエリとクエリの性能を理解するのに役立つ改善点について解説します。 実行時のボトルネックを特定してクエリを高速化 Databricks SQL は、自動的なクエリの高速化に優れています。事実、2021年11月に 世界記録 を更新しました。しかし、こういった技術革新にもかかわらず、クエリが予期せず遅いとい

データブリックス、ガートナー2021 年 MQ クラウドデータベース管理システム部門(DBMS)のリーダーに

December 16, 2021 Joel Minnick による投稿 in プラットフォームブログ
データブリックスは、ガートナーのマジック・クアドラント 2021 年「クラウドデータベース管理システム(DBMS)」部門においてリーダーに位置づけられました。これにより、データブリックスは、「クラウドデータベース管理システム(DBMS)」および「データサイエンス・機械学習プラットフォーム」の両部門のリーダーとして評価された唯一のクラウドネイティブベンダーとなりました。 レポートは、 こちら から無償でダウンロードできます。 リーダーとして位置づけられることは重要ですが、何を達成したことにより得られた評価なのかがより重要だと私たちは考えています。複数部門のマジック・クアドラント(MQ)で同時に高評価を受けるベンダーは他にも存在します。しかし、そのようなベンダーの多くは、別々の製品によって対象部門の評価基準を満たしているにすぎません。すなわち、問題解決に対する断片的なアプローチに留まっており、シンプルで一元的なエクスペリエンスをお客様に提供するものではありません。 データブリックスは、オープンソースとオープンスタンダ

Databricks Repos 一般公開、Files の新機能も一般プレビュー

Databricks Repos は、一般プレビューとして利用可能になって以来、Databricks の数千のユーザーの皆様によって、開発やプロダクションワークフローの標準化に活用いただいています。その Databricks Repos を本日一般公開しました。 Databricks Repos は、データチームが常に抱えている課題を解決するために開発されました。データエンジニア、データサイエンティストが使用しているツールの多くは、Git のバージョン管理システムとの連携が不十分、あるいは全くありません。コードをレビュー、コミットするだけでも、数多くのファイル、ステップ、UIをナビゲートする必要がありました。これでは時間がかかるだけでなく、エラーを発生しやすくします。 Repos は、Databricks と一般的な Git プロバイダーを直接リポジトリレベルで統合することで、データの実践者は新規の Git リポジトリや既存リポジトリをクローンの作成、Git オペレーションの実行、開発のベストプラクティスに従うこ

レイクハウスを市民データサイエンティストに — 8080 Labs 買収

データドリブンな組織では、組織のあらゆる部分にデータが浸透しています。データドリブンな組織への転換は、有意義なビジネス成果を生み出すための重要なステップとなります。業界を問わず、消費者の要求に応え、イノベーションを推進し、変化し続けるコンプライアンス要件を満たすという課題を同時に解決すべく尽力する企業の間で、データリテラシーというバズワードが生まれました。経験豊富なデータエンジニア、データサイエンティスト、機械学習エンジニアで構成する大規模なデータチームが存在しない企業においても、データ資産の構築と、それを活用した実運用が求められます。しかし、実運用に向けたスケーリングは容易なことではありません。 このような状況を受け、Databricks では、ノーコードデータ分析ツール bamboolib を提供するフランクフルト拠点のスタートアップ企業 8080 Labs を買収 しました。市民データサイエンティストによるデータ分析を促進させる bamboolib をサービスの一部として迎え入れることは、Databrick

Part 1:Databricks Notebook と Azure DevOps で Databricks に CI/CD を実装

ブログ内に掲載されているコードの詳細は、 こちら からご覧ください。 このブログは、エンドツーエンドの MLOps ソリューションを Databricks Notebook と Repos API を使用して設定、構築する方法を解説するブログシリーズの Part 1 です。今回は、Notebook をベースとした Databricks における CI/CD(継続的インテグレーション/継続的デリバリ)フレームワークについて解説します。継続的インテグレーション(CI)は Microsoft Azure DevOps のエコシステムと、継続的デリバリ(CD)は...