プラットフォームブログ

ページ 17

Unityカタログの分散・非集中管理に向けた自動化ガイド

December 8, 2022 ヴオン・グエン、ジーシャン・パパ、Mattia Zeni による投稿 in プラットフォームブログ

Original : An Automated Guide to Distributed and Decentralized Management of Unity Catalog 翻訳： junichi.maruyama Unity Catalog は、あらゆるクラウド上のレイクハウスにあるすべてのデータとAI資産に対して、統一されたガバナンスソリューションを提供します。顧客がUnity Catalogを採用する際、コードアプローチとしてのインフラストラクチャを使用して、これをプログラム的かつ自動的に行いたいと考えています。Unity Catalogでは、Unity Catalogのオブジェクトの最上位コンテナであるメタストアがリージョンごとに1つ存在します。このメタストアには、データ資産（テーブルとビュー）と、アクセスを制御する権限が格納されています。このことは、Unity Catalogの管理機能を担うプラットフォーム/ガバナンスチームを一元化していない組織にとって、新たな課題となる。具体的には、これらの

集まれ！Legendary Heroes of DATA + AI !!

December 6, 2022 [email protected] による投稿 in データ戦略

データブリックスの目指す世界は、私たち単体ではなし得ません！そこで、共にゴールを共有し、共に走っていく皆様に向けて「 Databricks Champion 」というプログラムを設けております。現在、世界では約200名の精鋭がDatabricks Championとしてご活躍されていますが、日本でもその動きは盛り上がってきており、Databricks Championが増えてきています。本ブログでは、難関を突破し、晴れてDatabricks Championになられた4名の方に、Databricks Championを目指したきっかけやこれからの思いについて、3回に分けてご紹介したいと思います。＜今回ご紹介する Legendary Heroes of DATA＋AI! > [Vol.1] 株式会社NTT データ　　　斎藤祐希様、洪...

パンプキンパイにAIはない、でもあるはずだ：MLとAIを使って斬新なアプリケーション体験を提供する

November 8, 2022 アビナッシュ・スーリヤラッチ、Nicole Jingting Lu、ブライアン・スミス（Bryan Smith）、Sam Steiny、ミカイラ・ガーフィンケルによる投稿 in 業界

Original: There’s No AI in Pumpkin Pie, But There Should Be: Delivering Novel Application Experiences Using ML & AI 翻訳: junichi.maruyama ホリデーシーズンが到来し、私たちの体を温め、ウエストラインに挑戦する、豊かでおいしい食べ物がたくさん出てきました。Databricksでは、ホリデーシーズンをより楽しくするために、少し楽しみながら、素晴らしいレシピをお客様と共有したいと思いました。しかし、Databricksである以上、AIを活用してそれを実現する必要がありました。 Databricksを使ったAIのシンプルさを実際に見せるために、私たちは「最高のパンプキンパイを作るにはどうしたらいいか」というトップオブマインドな課題を解決することにしました。このブログ記事では、Databricks...

Databricks Workflows によるレイクハウスの本番 dbt プロジェクトのオーケストレーション

October 3, 2022 ビラル・アスラム、レナート・カッツによる投稿 in プラットフォームブログ

信頼性の高いレイクハウスのオーケストレーターである Databricks Workflows が、パブリックプレビューで dbt プロジェクトのオーケストレーションをサポートするようになったことをお知らせします。このプレビューでは、データチームがノートブックから ML モデルまで、レイクハウスの全ての機能とともに dbt プロジェクトを調整することができます。この機能により、オープンソース dbt のユーザーは、SQL を使ったデータ変換や、レイクハウス全体のデータおよび ML パイプラインの監視と保守を簡単に行うことができます。ジョブが実行されると、dbt プロジェクトが Git リポジトリから取得され、単一ノードのクラスタが構築され、そこに dbt-core とプロジェクトの依存関係がインストールされます。dbt で生成された...

レイクハウス用データクリーンルームの紹介

June 28, 2022 Matei Zaharia、Itai Weiss、Steve Mahoney、サチン・タクール、ダン・モリス、ジェイ・バンカリアによる投稿 in プラットフォームブログ

翻訳: Masahiko Kitamura オリジナル記事： Introducing Data Clean Rooms for the Lakehouse Lakehouseのデータクリーンルームを発表することで、企業はプライバシーを保護した方法で、顧客やパートナーとあらゆるクラウド上で簡単にコラボレーションできるようになります。データ・クリーン・ルームの参加者は、データのプライバシーを維持しながら、既存のデータを共有、結合し、データ上でPython、R、SQL、Java、Scalaなどあらゆる言語で複雑なワークロードを実行することができます。外部データの需要がかつてないほど高まる中、組織はデータ主導のイノベーションを促進するため、データを安全に交換し、外部データを利用する方法を模索している。歴史的に、組織はデータ共有ソリューションを活用してパートナーとデータを共有し、データのプライバシーを守るために相互信頼に依存してきた。しかし、一度共有されたデータの管理は放棄され、さまざまなプラットフォームでデータがパート

Databricks レイクハウスプラットフォームでのデータウェアハウスのモデリングと実装

June 24, 2022 Soham Bhatt、Deepak Sekar による投稿 in プラットフォームブログ

レイクハウスは、データレイクとデータウェアハウスの長所を組み合わせた、新しいデータプラットフォームパラダイムです。多くのユースケースやデータプロダクトを格納できる、大規模なエンタープライズレベルのデータプラットフォームとして設計されています。データレイクとデータウェアハウスを統合した、単一のエンタープライズデータリポジトリとして使用することができます。データドメインリアルタイムストリーミングのユースケースデータマート異種データウェアハウスデータサイエンス機能ストア、データサイエンスサンドボックス部門別のセルフサービス型分析サンドボックスユースケースの多様性を考えると、レイクハウスのプロジェクトによって異なるデータ整理の原則やモデリングテクニックが適用されるかもしれません。技術的には、 Databricks レイクハウスプラットフォームは、多くの異なるデータモデリング形式をサポートすることができます。この記事では、レイクハウスの Bronze/Silver/Goldデータ編成原則の実装と、異なるデー

Delta Lake で Databricks にスタースキーマを実装するための簡単な 5 ステップ

May 20, 2022 Cary Moore、Lucas Bilbro、Brenner Heintz による投稿 in 製品

データウェアハウスの開発者の多くは、常に存在するスタースキーマに精通しています。1990 年代にラルフ・キンボールによって紹介されたスタースキーマは、ビジネスデータをディメンション（時間や商品など）とファクト（金額や数量のトランザクション）に非正規化するために使用されます。スタースキーマは、反復的なビジネス定義の重複を減らすことで、データの保存、履歴の維持、更新を効率的に行い、集計とフィルタリングを高速化します。ビジネスインテリジェンス（BI）アプリケーションをサポートするスタースキーマの一般的な実装は、慣例化し成功しているため、多くのデータモデルの設計者にとってその実装は極めて容易なものになっています。Databricks では、非常に多くのデータアプリケーションを作成しており、経験則によるベストプラクティスのアプローチ、成果につながることを保証する基本的な実装を常に探求しています。従来のデータウェアハウスと同様に、Delta Lake でもいくつかの簡単な経験則に従うことで、Delta スタースキーマの結

Delta Live Tables の一般提供開始を発表

April 5, 2022 Michael Armbrust、Awez Syed、ポール・ラパス、エリカ・エールリ、Sam Steiny、リチャード・トムリンソン、Andreas Neumann、Mukul Murthy による投稿 in プラットフォームブログ

Databricks は本日、 Delta Live Tables（DLT）の Amazon AWS と Microsoft Azure クラウドにおける一般公開、および Google Cloud におけるパブリックプレビューの提供開始を発表しました。このブログでは、DLT が大手企業のデータエンジニアやアナリストをどのように支援し、本番環境に対応したストリーミングとバッチパイプラインの簡単な構築や、大規模なインフラストラクチャの自動管理、および、新世代のデータ、分析、AI アプリケーションの提供に役立つかについて解説します。レイクハウスにおけるシンプルなストリーミングとバッチ ETL ETL（抽出・変換・ロード）に対するストリーミング、バッチワークロードの処理は、分析、データサイエンス、機械学習ワークロードの基本的な取り組みです。企業が生み出す膨大なデータ量がこの傾向を加速させています。しかし、未加工の構造化されていないデータを、クリーンで文書化された信頼のおける情報に処理することは、ビジネスの知見を推進す

Databricks SQL の新機能「クエリプロファイル」でクエリを理解する

February 23, 2022 ビラル・アスラム、Lucas Cerdan による投稿 in 製品

Databricks SQL は、 Databricks のレイクハウスプラットフォームにおける SQL のデータウェアハウス機能とファーストクラスのサポートを提供します。これにより、アナリストは従来のクラウドデータウェアハウスよりもわずかなコストで新たな知見を迅速に発見し、共有できるようになります。このブログは、Databricks SQL に関するコンテンツシリーズの一部です。Databricks SQL の性能、使いやすさ、ガバナンスにおける重要な機能について解説します。以前のブログでは、Databricks SQL の強化された最新のユーザーエクスペリエンスについてご紹介しました。今回は、ユーザーがクエリとクエリの性能を理解するのに役立つ改善点について解説します。実行時のボトルネックを特定してクエリを高速化 Databricks SQL は、自動的なクエリの高速化に優れています。事実、2021年11月に世界記録を更新しました。しかし、こういった技術革新にもかかわらず、クエリが予期せず遅いとい

データブリックス、ガートナー2021 年 MQ クラウドデータベース管理システム部門（DBMS）のリーダーに

December 16, 2021 Joel Minnick による投稿 in プラットフォームブログ

データブリックスは、ガートナーのマジック・クアドラント 2021 年「クラウドデータベース管理システム（DBMS）」部門においてリーダーに位置づけられました。これにより、データブリックスは、「クラウドデータベース管理システム（DBMS）」および「データサイエンス・機械学習プラットフォーム」の両部門のリーダーとして評価された唯一のクラウドネイティブベンダーとなりました。レポートは、こちらから無償でダウンロードできます。リーダーとして位置づけられることは重要ですが、何を達成したことにより得られた評価なのかがより重要だと私たちは考えています。複数部門のマジック・クアドラント（MQ）で同時に高評価を受けるベンダーは他にも存在します。しかし、そのようなベンダーの多くは、別々の製品によって対象部門の評価基準を満たしているにすぎません。すなわち、問題解決に対する断片的なアプローチに留まっており、シンプルで一元的なエクスペリエンスをお客様に提供するものではありません。データブリックスは、オープンソースとオープンスタンダ