ソリューション | Databricks Blog

ページ 2

dbtとDatabricksを用いてコスパの良いリアルタイムデータ処理を行う

December 12, 2023 シャビル・カーンバイ、ポール・ラパス、ビラル・アスラムによる投稿 in プラットフォームブログ

ビジネスが成長するにつれ、データ量はGBからTB（またはそれ以上）に拡大し、レイテンシー要求は数時間から数分（またはそれ以下）になり、ビジネスに新鮮な洞察を提供するためのコストはますます高くなります。これまでPythonやScalaのデータエンジニアは、このような需要に応えるためにストリーミングを利用し、新しいデータをリアルタイムで効率的に処理してきましたが、SQLベースのdbtパイプラインを拡張する必要があるアナリティクスエンジニアには、このような選択肢はありませんでした。しかし今は違います！このブログでは、Databricks の新しいストリーミングテーブルとマテリアライズドビューを使用して、SQL と dbt のシンプルさで新鮮なリアルタイムのインサイトをビジネスに提供する方法を説明します。背景 2023 Data + AI Summitでは、 Databricks SQLにストリーミングテーブルとマテリアライズドビューを導入しました。この素晴らしい機能により、Databricks SQL ユーザーは

あらゆるユースケースに対応するストリーミング・アーキテクチャが必要な時が来た！

November 9, 2023 マット・ジョーンズによる投稿 in プラットフォームブログ

今日のデータ主導の世界では、企業はかつてない規模のデータを効率的に取り込み、処理するという課題に直面している。常に生成されるビジネスクリティカルなデータの量と多様性により、アーキテクチャの可能性は無限に近い。良いニュースは？これはまた、スループット、レイテンシー、コスト、運用効率など、データアーキテクチャをさらに最適化できる可能性が常にあることを意味する。多くのデータ専門家は、"データストリーミング" や"ストリーミングアーキテクチャ" といった用語を、ほとんどのワークロードにとって複雑でコストがかかり、実用的でないように見える超低レイテンシのデータパイプラインと関連付けている。しかし、Databricks Lakehouse Platform上でストリーミングデータアーキテクチャを採用したチームは、ほとんどの場合、スループットの向上、運用オーバーヘッドの削減、コストの大幅削減というメリットを得ることができます。これらのユーザーの中には、サブ秒単位のレイテンシーでリアルタイムにジョブを実行する者も

レイクハウスAIがリアルタイム計算でモデルの精度を向上させる方法

November 3, 2023 アヴェシュ・シン、マニ・パルケによる投稿 in プラットフォームブログ

機械学習モデルの予測品質は、モデルの訓練と使用に使用されるデータの品質に直接反映される。通常、特徴量、つまりモデルへの入力データは事前に計算され、保存された後、推論のために検索され、モデルに提供される。モデルの性能は、特徴計算に使用するデータの鮮度と直接相関することが多いため、これらの特徴を事前に計算できない場合に課題が生じる。オンデマンド・フィーチャー・コンピュテーションを発表することで、このようなフィーチャー・クラスのサービスを簡素化することができる。レコメンデーション、セキュリティシステム、不正検知などのユースケースでは、これらのモデルのスコアリング時にオンデマンドで機能を計算する必要がある。シナリオは以下の通り：特徴量の入力データがモデル提供時にしか得られない場合。例えば、 distance_from_restaurantは、モバイル機器によって決定されたユーザーの最後の既知の位置を必要とする。ある機能の価値が、それが使われる文脈によって変化する状況。デバイスの種類がデスクトップと

HiveテーブルをUnityカタログにアップグレードする方法

November 2, 2023 ディパンカル・クシャリ、リラン・バレケット、スレーラム・トゥーム、ソム・ナタラジャンによる投稿 in 製品

このブログでは、Hiveメタストア(HMS)*テーブルをUnityカタログ(UC)にシームレスにアップグレードする方法を、アップグレードするHMSテーブルのバリエーションに応じて異なる方法を使用して、例を挙げて説明します。 *注: Hiveメタストアは、デフォルト、外部メタストア、またはAWS Glue Data Catalogでもかまいません。簡略化のため、本書では"Hive メタストア" という用語を使用します。詳細を説明する前に、アップグレードの手順を説明しよう。評価 - このステップでは、アップグレード対象として特定された既存の HMS テーブルを評価し、アップグレードの適切なアプローチを決定します。このステップについては、このブログで説明します。作成 - このステップでは、メタストア、カタログ、スキーマ、ストレージ資格情報、外部ロケーションなど、必要なUCアセットを作成します。詳細については、ドキュメント（ AWS 、 Azure...

Reposでコンフリクト解決をサポートしました: Merge, Rebase and Pull

October 11, 2023 Grant Eaton による投稿 in プラットフォームブログ

翻訳：Saki Kitaoka. - Original Blog Link Databricksでは、開発者の経験をシンプル化することに力を入れており、Databricks Reposにおける追加のGit機能を発表することを大変嬉しく思っています。ユーザーは現在、Repos UIから直接、Git merge（マージ）とGit rebase（リベース）を実行し、マージのコンフリクトを解決することができます。新しい操作：マージ＆リベースそれぞれの操作は、あるブランチから別のブランチにコミット履歴を結合する方法で、違いはその達成戦略にあります。初心者の方には、まずマージを使用することをお勧めします。なぜなら、それはブランチへの強制プッシュを必要とせず、したがってコミット履歴を書き換えないからです。リベースはプロジェクトの履歴をクリーンに保ちますが、その履歴を書き換えることがあり、問題を引き起こす可能性があります。Databricksは、チームが最も適している方法を選ぶことを可能にします。戦略の違いについて詳しくは、

AIデータの簡素化

August 28, 2023 マニ・パルケ、クレイグ・ワイリー、Patrick Wendell（パトリック・ウェンデル）、Matei Zaharia による投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link どのデータサイエンス組織と話しても、高品質なAIモデルを構築するための最大の課題はデータへのアクセスと管理であると、ほぼ全員が口を揃えて言うだろう。長年にわたり、実務家は実験と開発を加速させるために様々なテクノロジーと抽象化を利用してきた。ここ数年、フィーチャーストアは、機械学習のためにデータを整理し準備する方法として、実務家の間でますます普及している。2022年初頭、Databricksはフィーチャーストアの一般提供を開始しました。この夏、Databricks Unity Catalogのネイティブ機能としてフィーチャーエンジニアリングと管理を導入できることを嬉しく思います。これは、AIデータをよりシンプルに管理する方法の大きな進化を意味します。この進化は、フィーチャー管理とクラス最高のデータカタログを一体化させ、フィーチャーを作成し、それらを使用してモデルをトレーニングし、サービスを提供するプロセスを簡素化し、安全にします。

データレイクハウスでビットコインマイナーからコンピューティングリソースを守る

August 3, 2023 Anirudh Kondaveeeti による投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link 暗号通貨、特にビットコインの人気が高まるにつれ、ビットコインのマイニング現象が起きている。通常の採掘作業はブロックチェーンの検証とセキュリティにとって重要である一方、悪意のある行為者が違法な採掘目的でクラウド・コンピューティング・リソースを悪用するという不穏な傾向も現れている。これは高価な処理リソースを浪費するだけでなく、クラウドサービスプロバイダーとそのクライアントの双方に深刻なセキュリティ上の脅威をもたらします。効果的な脅威の検知と対応は、高度な脅威検知のためのスケールや機能を提供しないサイロ化されたツールのコストと複雑さが課題となっています。このブログでは、ビットコインマイニングの悪用に対抗するためにデータレイクハウスをどのように活用できるかを見ていきます。組織はレイクハウスを使用してペタバイト級のデータを分析し、高度な分析を適用してサイバーリスクと運用コストを削減することができます。DatabricksのLakehous

クラウドエンジニアがAWSにDatabricksをデプロイするためのベストプラクティスとガイダンス：パート3

July 29, 2023 JD Braun、Tony Bo による投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link クラウドエンジニアがAWSにDatabricksをデプロイするためのベストプラクティスとガイダンスシリーズの最終回として、重要なトピックである自動化を取り上げます。このブログポストでは、デプロイで使用される3つのエンドポイントを分解し、CloudFormationやTerraformのような一般的なInfrastructure as Code (IaC)ツールの例を説明し、自動化のための一般的なベストプラクティスで締めくくります。しかし、これから参加される方には、Databricks on AWSのアーキテクチャとクラウドエンジニアにとっての利点について説明した part one を読まれることをお勧めします。また part two では、AWS 上でのデプロイとベストプラクティス、そして推奨事項について説明します。クラウド・オートメーションのバックボーン...

Delta Live Table（DLT）を用いたGDPR・CCPAにおける「忘れられる権利」の取り扱いについて

June 1, 2023 Marcin Wojtyczka による投稿 in プラットフォームブログ

Original: Handling "Right to be Forgotten" in GDPR and CCPA using Delta Live Tables (DLT) 翻訳: junichi.maruyama ここ数十年でデータ量は爆発的に増加し、各国政府は個人データに対する個人の保護と権利を強化するための規制を設けています。 General Data Protection Regulation （GDPR）と...

Databricksがファイルサイズの自動最適化によりクエリパフォーマンスを最大2.2倍向上させた方法

May 23, 2023 シルイ・サン、ヒマンシュウ・ラジャ、ヴィジャヤン・プラバカラン、テリー・キムによる投稿 in プラットフォームブログ

Original : How Databricks improved query performance by up to 2.2x by automatically optimizing file sizes 翻訳：saki.kitaoka テーブルファイルサイズの最適化は、長い間データエンジニアにとって必要だが複雑なタスクでした。テーブルの適切なファイルサイズに到達すると、大幅なパフォーマンス向上が実現しますが、これは伝統的に深い専門知識と大量の時間投資を必要としていました。最近、Databricks SQLのためのPredictive I/O( Predictive I/O...