Databricks ブログ

ページ 50

PySparkでのメモリプロファイリング

November 30, 2022 Xinrong Meng、上新卓也、アラン・フォルティングによる投稿 in エンジニアリングのブログ

Original Blog : Memory Profiling in PySpark 翻訳： junichi.maruyama PySparkのプログラムのパフォーマンスには多くの要因があります。PySparkは様々なプロファイリングツールをサポートしており、プログラムのタイトループを公開し、パフォーマンス改善の意思決定を行うことができます（詳細を見る）しかしプログラムの性能の重要な要因の1つであるメモリは、PySparkのプロファイリングでは見落とされていました。Sparkドライバ上のPySparkプログラムは、通常のPythonプロセスとして Memory Profiler でプロファイリングできますが、Sparkエグゼキュータ上のメモリを簡単にプロファイリングする方法は存在しませんでした。 PySpark UDFは最も人気のあるPython APIの1つで、Sparkエグゼキュータによって生成されたPythonワーカーサブプロセスで実行されます。Apache Spark™エンジンの上でカスタムコードを

パンプキンパイにAIはない、でもあるはずだ：MLとAIを使って斬新なアプリケーション体験を提供する

November 8, 2022 アビナッシュ・スーリヤラッチ、ニコル・ジンティング・ル、ブライアン・スミス（Bryan Smith）、Sam Steiny、ミカイラ・ガーフィンケルによる投稿 in 業界

Original: There’s No AI in Pumpkin Pie, But There Should Be: Delivering Novel Application Experiences Using ML & AI 翻訳: junichi.maruyama ホリデーシーズンが到来し、私たちの体を温め、ウエストラインに挑戦する、豊かでおいしい食べ物がたくさん出てきました。Databricksでは、ホリデーシーズンをより楽しくするために、少し楽しみながら、素晴らしいレシピをお客様と共有したいと思いました。しかし、Databricksである以上、AIを活用してそれを実現する必要がありました。 Databricksを使ったAIのシンプルさを実際に見せるために、私たちは「最高のパンプキンパイを作るにはどうしたらいいか」というトップオブマインドな課題を解決することにしました。このブログ記事では、Databricks...

Databricks Workflows によるレイクハウスの本番 dbt プロジェクトのオーケストレーション

October 3, 2022 ビラル・アスラム、レナート・カッツによる投稿 in プラットフォームブログ

信頼性の高いレイクハウスのオーケストレーターである Databricks Workflows が、パブリックプレビューで dbt プロジェクトのオーケストレーションをサポートするようになったことをお知らせします。このプレビューでは、データチームがノートブックから ML モデルまで、レイクハウスの全ての機能とともに dbt プロジェクトを調整することができます。この機能により、オープンソース dbt のユーザーは、SQL を使ったデータ変換や、レイクハウス全体のデータおよび ML パイプラインの監視と保守を簡単に行うことができます。ジョブが実行されると、dbt プロジェクトが Git リポジトリから取得され、単一ノードのクラスタが構築され、そこに dbt-core とプロジェクトの依存関係がインストールされます。dbt で生成された...

AI の活用とデータを一元化することでビジネスを成功に変える方法

August 8, 2022 Satoshi Okamoto による投稿 in インサイト

デジタルネイティブ企業がアナリティクスとAIを大規模に活用し、真のデータ駆動型企業へと飛躍している様子を紹介します。ここでは、 Databricks Lakehouse を活用し、コスト効率と回復力の高いモダンなデータプラットフォームでビジネスの成長に拍車をかけたアジア太平洋地域のデジタルネイティブ企業 5 社に焦点を当てたいと思います。データと人工知能（AI）は、ビジネスに不可欠な意思決定の最前線にあります。データに精通したデジタルネイティブから「伝統的」な企業まで、これらの企業は、競合他社を出し抜き、顧客を喜ばせるためには、振り返ることに時間を費やさず、リアルタイムでデータを使って先を見通し、将来を予測し計画する必要があることを理解しています。何百ものお客様とお話するなかで、なぜ企業が倉庫やオンプレミスソフトウェア、その他のレガシーインフラからクラウドへ移行しつつあるのか、その理由がわかってきました。また、サービスを市場投入までの時間を短縮するために、全てを自社で IT インフラを一から構築することから、

レイクハウス用データクリーンルームの紹介

June 28, 2022 Matei Zaharia、Itai Weiss、Steve Mahoney、サチン・タクール、ダン・モリス、ジェイ・バンカリアによる投稿 in プラットフォームブログ

翻訳: Masahiko Kitamura オリジナル記事： Introducing Data Clean Rooms for the Lakehouse Lakehouseのデータクリーンルームを発表することで、企業はプライバシーを保護した方法で、顧客やパートナーとあらゆるクラウド上で簡単にコラボレーションできるようになります。データ・クリーン・ルームの参加者は、データのプライバシーを維持しながら、既存のデータを共有、結合し、データ上でPython、R、SQL、Java、Scalaなどあらゆる言語で複雑なワークロードを実行することができます。外部データの需要がかつてないほど高まる中、組織はデータ主導のイノベーションを促進するため、データを安全に交換し、外部データを利用する方法を模索している。歴史的に、組織はデータ共有ソリューションを活用してパートナーとデータを共有し、データのプライバシーを守るために相互信頼に依存してきた。しかし、一度共有されたデータの管理は放棄され、さまざまなプラットフォームでデータがパート

Databricks レイクハウスプラットフォームでのデータウェアハウスのモデリングと実装

June 24, 2022 Soham Bhatt、Deepak Sekar による投稿 in プラットフォームブログ

レイクハウスは、データレイクとデータウェアハウスの長所を組み合わせた、新しいデータプラットフォームパラダイムです。多くのユースケースやデータプロダクトを格納できる、大規模なエンタープライズレベルのデータプラットフォームとして設計されています。データレイクとデータウェアハウスを統合した、単一のエンタープライズデータリポジトリとして使用することができます。データドメインリアルタイムストリーミングのユースケースデータマート異種データウェアハウスデータサイエンス機能ストア、データサイエンスサンドボックス部門別のセルフサービス型分析サンドボックスユースケースの多様性を考えると、レイクハウスのプロジェクトによって異なるデータ整理の原則やモデリングテクニックが適用されるかもしれません。技術的には、 Databricks レイクハウスプラットフォームは、多くの異なるデータモデリング形式をサポートすることができます。この記事では、レイクハウスの Bronze/Silver/Goldデータ編成原則の実装と、異なるデー

Delta Lake で Databricks にスタースキーマを実装するための簡単な 5 ステップ

May 20, 2022 Cary Moore、Lucas Bilbro、Brenner Heintz による投稿 in 製品

データウェアハウスの開発者の多くは、常に存在するスタースキーマに精通しています。1990 年代にラルフ・キンボールによって紹介されたスタースキーマは、ビジネスデータをディメンション（時間や商品など）とファクト（金額や数量のトランザクション）に非正規化するために使用されます。スタースキーマは、反復的なビジネス定義の重複を減らすことで、データの保存、履歴の維持、更新を効率的に行い、集計とフィルタリングを高速化します。ビジネスインテリジェンス（BI）アプリケーションをサポートするスタースキーマの一般的な実装は、慣例化し成功しているため、多くのデータモデルの設計者にとってその実装は極めて容易なものになっています。Databricks では、非常に多くのデータアプリケーションを作成しており、経験則によるベストプラクティスのアプローチ、成果につながることを保証する基本的な実装を常に探求しています。従来のデータウェアハウスと同様に、Delta Lake でもいくつかの簡単な経験則に従うことで、Delta スタースキーマの結

金融機関 TD Bank におけるクラウド化 - データ環境のモダナイゼーション事例

May 20, 2022 中井淳太、Jonathan Hollander による投稿 in Databricks ブログ

1955 年以来、TD Bank グループは、変化する世界において成功する自信を顧客とコミュニティに提供することを目指してきました。10 年が経過するごとに要求は厳しく、複雑さは増していますが、TD は一貫してこの課題に取り組んでいます。このブログでは、Databricks 金融サービス＆サステナビリティ部門 GTM グローバルヘッドのジュンタ・ナカイ（Junta Nakai）が、TD Bank エンタープライズデータテクノロジープラットフォーム部門 VP のジョナサン・ホランダー（Jonathan Hollander）氏に伺った TD における技術変革の事例をインタビュー形式でご紹介します。顧客体験の向上を支援するために分析機能を強化するよう設計された Delta Lake と Azure クラウドによる新しいモダンデータ資産への移行理由に焦点を当てています。...

J&J 社におけるデータの民主化によるサプライチェーン最適化の事例

April 25, 2022 Mrunal Saraiya による投稿 in 導入事例

本ブログは、ジョンソン・エンド・ジョンソン社の先端技術（データ、インテリジェントオートメーション、先端技術インキュベーション）部門シニアディレクター、 Mrunal Saraiya 氏の執筆によるゲストブログです。ジョンソン・エンド・ジョンソン（J&J）は、グローバルな消費財および医薬品プロバイダーの中核的企業として 150 年以上にわたり、世界中の企業、患者、医師、人々にサービスを提供しています。私たちは、生命を維持する医療機器やワクチンをはじめ、市販薬、処方箋薬（これらの創薬に必要なツールや資源）など、市場に送り出す全てのものを入手可能な状態にし、多様な商品の品質、保管、お客様へのタイムリーな配送の一貫性を保証しなければなりません。製品やサービスをどのように地域社会に提供するかは、私たちの事業戦略の中核をなすものです。特に、消費者が製品に効果的にアクセスして使用できるようにするために、製品の配送時間、場所の厳守、公正な販売価格の保証を重要視しています。市場のサプライチェーンには、以前から物流に関す

Delta Live Tables の一般提供開始を発表

April 5, 2022 Michael Armbrust、Awez Syed、ポール・ラッパス、エリカ・エーリ、Sam Steiny、リチャード・トムリンソン、アンドレアス・ノイマン、Mukul Murthy による投稿 in プラットフォームブログ

Databricks は本日、 Delta Live Tables（DLT）の Amazon AWS と Microsoft Azure クラウドにおける一般公開、および Google Cloud におけるパブリックプレビューの提供開始を発表しました。このブログでは、DLT が大手企業のデータエンジニアやアナリストをどのように支援し、本番環境に対応したストリーミングとバッチパイプラインの簡単な構築や、大規模なインフラストラクチャの自動管理、および、新世代のデータ、分析、AI アプリケーションの提供に役立つかについて解説します。レイクハウスにおけるシンプルなストリーミングとバッチ ETL ETL（抽出・変換・ロード）に対するストリーミング、バッチワークロードの処理は、分析、データサイエンス、機械学習ワークロードの基本的な取り組みです。企業が生み出す膨大なデータ量がこの傾向を加速させています。しかし、未加工の構造化されていないデータを、クリーンで文書化された信頼のおける情報に処理することは、ビジネスの知見を推進す