メインコンテンツへジャンプ

Databricks SQL の新機能「クエリプロファイル」でクエリを理解する

February 23, 2022 ビラル・アスラムLucas Cerdan による投稿 in 製品
Databricks SQL は、 Databricks のレイクハウスプラットフォーム における SQL のデータウェアハウス機能とファーストクラスのサポートを提供します。これにより、アナリストは従来のクラウドデータウェアハウスよりもわずかなコストで新たな知見を迅速に発見し、共有できるようになります。 このブログは、Databricks SQL に関するコンテンツシリーズの一部です。Databricks SQL の性能、使いやすさ、ガバナンスにおける重要な機能について解説します。以前の ブログ では、Databricks SQL の強化された最新のユーザーエクスペリエンスについてご紹介しました。今回は、ユーザーがクエリとクエリの性能を理解するのに役立つ改善点について解説します。 実行時のボトルネックを特定してクエリを高速化 Databricks SQL は、自動的なクエリの高速化に優れています。事実、2021年11月に 世界記録 を更新しました。しかし、こういった技術革新にもかかわらず、クエリが予期せず遅いとい

Databricks Repos 一般公開、Files の新機能も一般プレビュー

Databricks Repos は、一般プレビューとして利用可能になって以来、Databricks の数千のユーザーの皆様によって、開発やプロダクションワークフローの標準化に活用いただいています。その Databricks Repos を本日一般公開しました。 Databricks Repos は、データチームが常に抱えている課題を解決するために開発されました。データエンジニア、データサイエンティストが使用しているツールの多くは、Git のバージョン管理システムとの連携が不十分、あるいは全くありません。コードをレビュー、コミットするだけでも、数多くのファイル、ステップ、UIをナビゲートする必要がありました。これでは時間がかかるだけでなく、エラーを発生しやすくします。 Repos は、Databricks と一般的な Git プロバイダーを直接リポジトリレベルで統合することで、データの実践者は新規の Git リポジトリや既存リポジトリをクローンの作成、Git オペレーションの実行、開発のベストプラクティスに従うこ

Part 1:Databricks Notebook と Azure DevOps で Databricks に CI/CD を実装

ブログ内に掲載されているコードの詳細は、 こちら からご覧ください。 このブログは、エンドツーエンドの MLOps ソリューションを Databricks Notebook と Repos API を使用して設定、構築する方法を解説するブログシリーズの Part 1 です。今回は、Notebook をベースとした Databricks における CI/CD(継続的インテグレーション/継続的デリバリ)フレームワークについて解説します。継続的インテグレーション(CI)は Microsoft Azure DevOps のエコシステムと、継続的デリバリ(CD)は...

Databricks SQL の最新イテレーション、新たな性能、速度改善

Data+AI サミット 2020 Europe で 発表 した Databricks SQL は、マルチクラウドの レイクハウス アーキテクチャの運用を可能にし、データウェアハウスの性能とデータレイクの経済性を同時に実現します。Databricks では、レイクハウスを活用した知見の抽出および共有を容易にすることを目標に、データアナリスト向けに、最適化された SQL UI や主要な BI ツールの充実したサポート機能を含む、シンプルで使いやすいツールの提供に尽力しています。 Databricks SQL についても同様に、性能、使いやすさ、ガバナンスの向上を目指してイノベーションに日々取り組んでいます。その内容について、複数回のブログを通じてご紹介する予定です。今回は、その第一弾として、以下の各シナリオにおける Databricks SQL...

FAIR 原則に基づく効率的なデータ管理をレイクハウスで実現

September 7, 2021 Greg WoodAmir Kermany による投稿 in プラットフォームブログ
科学における発見とイノベーションの原動力となるデータ。そのデータの価値は、データ管理戦略によって左右されます。データ管理戦略は、データの品質、アクセスの容易さ、結果の再現性を確保するための重要な要素であり、信頼できる科学的なエビデンスを得るうえで欠かすことができません。 あらゆる分野の科学者が大規模なデータセットにアクセスできるようになったことで、管理や制御の煩雑さ、再現不能なデータワークフローをはじめとするビッグデータの問題が過去 10 年間で顕著になり、解決すべき課題となっています。 これを受けて、業界の専門家は、「価値あるデジタル資産の長期的な管理」を中核とした「適切なデータ管理とスチュワードシップ」のフレームワークを策定しました。このことは、2016 年に「 Nature 」誌の記事で初めて取り上げられています。このフレームワークは現在 FAIR 原則として認知されています。FAIR 原則は、デジタル資産の Findability(検索性)、Accessibility(アクセス性)、Interoperab