ソリューション | Databricks Blog

ページ 3

Unity Catalogにおけるデータ権限モデルとアクセス制御のためのヒッチハイカーズガイド

May 5, 2023 ソム・ナタラジャン、ヴオン・グエンによる投稿 in プラットフォームブログ

The Hitchhiker's Guide to data privilege model and access control in Unity Catalog 翻訳： junichi.maruyama データの量、速度、多様性が増すにつれ、組織は、中核となるビジネス成果を適切に満たすために、確固たるデータガバナンスの実践にますます頼るようになっています。 Unity Catalog は、Databricks Lakehouseを支えるデータとAIのためのきめ細かなガバナンス・ソリューションです。データアクセスを管理・監査するための一元的なメカニズムを提供することで、企業のデータ資産のセキュリティとガバナンスを簡素化することができます。 Unity Catalogがファイル、テーブルの権限モデルを統一し、すべての言語をサポートするようになる以前、お客様はレガシーワークスペースレベルのテーブルACL（TACL）...

ソフトウェア開発およびDevOpsのベストプラクティスをDelta Live Tableパイプラインに適用

April 28, 2023 Alex Ott による投稿 in プラットフォームブログ

Original Blog : Applying software development & DevOps best practices to Delta Live Table pipelines 翻訳： junichi.maruyama Databricks Delta Live Tables（DLT）は、データエンジニアが記述・維持する必要のあるコード量を減らすことで、堅牢なデータ処理パイプラインの開発を根本的に簡素化します。また、環境間でコードとパイプラインの構成をシームレスに推進できるようにしながら、データのメンテナンスとインフラ運用の必要性を低減します。しかし、パイプラインに含まれるコードのテストを行う必要があり、それを効率的に行う方法についてよく質問を受けます。このブログでは、複数のお客様との共同作業の経験に基づき、以下の項目を取り上げます： DevOpsのベストプラクティスをDelta...

Lakehouseの価値を最大化するためのデータアーキテクチャパターン

April 26, 2023 ベルンハルト・ワルター、マグヌス・ピエール、Marco Scagliola、Matthieu Lamairesse による投稿 in プラットフォームブログ

Original Blog : A data architecture pattern to maximize the value of the Lakehouse 翻訳： junichi.maruyama Lakehouseの優れた成果の1つは、従来のBI、機械学習＆AIといったモダンなユースケースのワークロードを1つのプラットフォームで組み合わせることができることです。このブログ記事では、「1つのプラットフォームに2つのサイロがある」というリスクを軽減するアーキテクチャ・パターンを説明しています。本ブログで紹介するアプローチに従えば、機械学習やAIを利用するデータサイエンティストは、組織のビジネス情報モデルから得られる信頼性の高いデータに容易にアクセスできるようになります。同時に、ビジネスアナリストは、中核となるエンタープライズデータウェアハウス（EDW）の安定性と適合性を維持しながら、レイクハウスの機能を活用してデータウェアハウス（DWH）プロジェクトのデリバリーを加速させることができます。データレイクと

SAPと共にオープンデータエコシステムを開発する

April 19, 2023 Samir Patel、Sam Steiny、Awez Syed による投稿 in プラットフォームブログ

Original Blog : Developing an Open Data Ecosystem with SAP 翻訳： junichi.maruyama 製造業、エネルギー、ライフサイエンス、小売業など、さまざまな業界で、企業がビジネスの耐久性、回復力、持続可能性を重視し、重要な意思決定にデータを活用するようになってきています。これらの業界の企業における重要なデータの大半は、SAPアプリケーションからもたらされています。 SAP Datasphere は、財務、サプライチェーン、CRM、人事など、ERPやその他の機能アプリケーション群にまたがるSAPデータへのシームレスかつスケーラブルなアクセスを可能にする包括的なデータサービスで、DatabricksはSAPの4つのローンチパートナーに加わったことを発表できることを嬉しく思っています。SAP Datasphereは、ビジネスデータファブリックアーキテクチャを実現し、ビジネスコンテキストやデータモデルビューをそのままにSAPデータを提供し、SAPデータの

Delta Live Tablesで10億レコードのETLを1ドル未満で実行した方法

April 14, 2023 Dillon Bostwick、Shannon Barrow、Franco Patano、Rahul Soni による投稿 in プラットフォームブログ

Original: How We Performed ETL on One Billion Records For Under $1 With Delta Live Tables 翻訳: junichi.maruyama 今日、DatabricksはETL（Extract、Transform、Load）の価格とパフォーマンスの新しい標準を打ち立てました。お客様は10年以上前からDatabricksをETLパイプラインに使用していますが、従来のETL技術を使用してEDW（Enterprise Data Warehouse）のディメンションモデルにデータを取り込む場合、クラス最高の価格とパフォーマンスを公式に実証しています。そのために、データ統合、つまり一般にETLと呼ばれるもののための最初の業界標準ベンチマークである TPC-DI...

Unity Catalogによる分散型データガバナンスと孤立した環境の実現

March 9, 2023 Max Nienu、ジーシャン・パパ、ポール・ルーム、サチン・タクールによる投稿 in ソリューション

Original : Distributed Data Governance and Isolated Environments with Unity Catalog 翻訳： junichi.maruyama データ、アナリティクス、AIに業務を依存する組織では、効果的なデータガバナンスが不可欠です。多くの組織で、集中型データガバナンスの価値提案に対する認識が高まってきています。しかし、最高の意図を持っていても、適切な組織プロセスとリソースがなければ、集中型ガバナンスの導入は困難な場合があります。多くの組織では、最高データ責任者（CDO）の役割がまだ確立されておらず、誰が組織全体のデータガバナンス方針を定義し、実行するのかについて疑問が残ります。その結果、組織全体のデータガバナンスポリシーを定義し実行する責任が一元化されていないことが多く、組織内のビジネスライン、サブユニット、その他の部門間でポリシーが異なったり、管理団体が異なったりすることになります。簡単のため、このパターンを分散型ガバナンスと呼ぶことにしま

Unityカタログの分散・非集中管理に向けた自動化ガイド

December 8, 2022 ヴオン・グエン、ジーシャン・パパ、Mattia Zeni による投稿 in プラットフォームブログ

Original : An Automated Guide to Distributed and Decentralized Management of Unity Catalog 翻訳： junichi.maruyama Unity Catalog は、あらゆるクラウド上のレイクハウスにあるすべてのデータとAI資産に対して、統一されたガバナンスソリューションを提供します。顧客がUnity Catalogを採用する際、コードアプローチとしてのインフラストラクチャを使用して、これをプログラム的かつ自動的に行いたいと考えています。Unity Catalogでは、Unity Catalogのオブジェクトの最上位コンテナであるメタストアがリージョンごとに1つ存在します。このメタストアには、データ資産（テーブルとビュー）と、アクセスを制御する権限が格納されています。このことは、Unity Catalogの管理機能を担うプラットフォーム/ガバナンスチームを一元化していない組織にとって、新たな課題となる。具体的には、これらの

パンプキンパイにAIはない、でもあるはずだ：MLとAIを使って斬新なアプリケーション体験を提供する

November 8, 2022 アビナッシュ・スーリヤラッチ、Nicole Jingting Lu、ブライアン・スミス（Bryan Smith）、Sam Steiny、ミカイラ・ガーフィンケルによる投稿 in 業界

Original: There’s No AI in Pumpkin Pie, But There Should Be: Delivering Novel Application Experiences Using ML & AI 翻訳: junichi.maruyama ホリデーシーズンが到来し、私たちの体を温め、ウエストラインに挑戦する、豊かでおいしい食べ物がたくさん出てきました。Databricksでは、ホリデーシーズンをより楽しくするために、少し楽しみながら、素晴らしいレシピをお客様と共有したいと思いました。しかし、Databricksである以上、AIを活用してそれを実現する必要がありました。 Databricksを使ったAIのシンプルさを実際に見せるために、私たちは「最高のパンプキンパイを作るにはどうしたらいいか」というトップオブマインドな課題を解決することにしました。このブログ記事では、Databricks...

Databricks レイクハウスプラットフォームでのデータウェアハウスのモデリングと実装

June 24, 2022 Soham Bhatt、Deepak Sekar による投稿 in プラットフォームブログ

レイクハウスは、データレイクとデータウェアハウスの長所を組み合わせた、新しいデータプラットフォームパラダイムです。多くのユースケースやデータプロダクトを格納できる、大規模なエンタープライズレベルのデータプラットフォームとして設計されています。データレイクとデータウェアハウスを統合した、単一のエンタープライズデータリポジトリとして使用することができます。データドメインリアルタイムストリーミングのユースケースデータマート異種データウェアハウスデータサイエンス機能ストア、データサイエンスサンドボックス部門別のセルフサービス型分析サンドボックスユースケースの多様性を考えると、レイクハウスのプロジェクトによって異なるデータ整理の原則やモデリングテクニックが適用されるかもしれません。技術的には、 Databricks レイクハウスプラットフォームは、多くの異なるデータモデリング形式をサポートすることができます。この記事では、レイクハウスの Bronze/Silver/Goldデータ編成原則の実装と、異なるデー

FAIR 原則に基づく効率的なデータ管理をレイクハウスで実現

September 7, 2021 Greg Wood、Amir Kermany による投稿 in プラットフォームブログ

科学における発見とイノベーションの原動力となるデータ。そのデータの価値は、データ管理戦略によって左右されます。データ管理戦略は、データの品質、アクセスの容易さ、結果の再現性を確保するための重要な要素であり、信頼できる科学的なエビデンスを得るうえで欠かすことができません。あらゆる分野の科学者が大規模なデータセットにアクセスできるようになったことで、管理や制御の煩雑さ、再現不能なデータワークフローをはじめとするビッグデータの問題が過去 10 年間で顕著になり、解決すべき課題となっています。これを受けて、業界の専門家は、「価値あるデジタル資産の長期的な管理」を中核とした「適切なデータ管理とスチュワードシップ」のフレームワークを策定しました。このことは、2016 年に「 Nature 」誌の記事で初めて取り上げられています。このフレームワークは現在 FAIR 原則として認知されています。FAIR 原則は、デジタル資産の Findability（検索性）、Accessibility（アクセス性）、Interoperab