プラットフォームブログ

ページ 18

Databricks Repos 一般公開、Files の新機能も一般プレビュー

October 7, 2021 Ka-Hing Cheung、Vaibhav Sethi による投稿 in プラットフォームブログ

Databricks Repos は、一般プレビューとして利用可能になって以来、Databricks の数千のユーザーの皆様によって、開発やプロダクションワークフローの標準化に活用いただいています。その Databricks Repos を本日一般公開しました。 Databricks Repos は、データチームが常に抱えている課題を解決するために開発されました。データエンジニア、データサイエンティストが使用しているツールの多くは、Git のバージョン管理システムとの連携が不十分、あるいは全くありません。コードをレビュー、コミットするだけでも、数多くのファイル、ステップ、UIをナビゲートする必要がありました。これでは時間がかかるだけでなく、エラーを発生しやすくします。 Repos は、Databricks と一般的な Git プロバイダーを直接リポジトリレベルで統合することで、データの実践者は新規の Git リポジトリや既存リポジトリをクローンの作成、Git オペレーションの実行、開発のベストプラクティスに従うこ

レイクハウスを市民データサイエンティストに — 8080 Labs 買収

October 6, 2021 Clemens Mewald、Bharath Gowda、Ari Paul による投稿 in プラットフォームブログ

データドリブンな組織では、組織のあらゆる部分にデータが浸透しています。データドリブンな組織への転換は、有意義なビジネス成果を生み出すための重要なステップとなります。業界を問わず、消費者の要求に応え、イノベーションを推進し、変化し続けるコンプライアンス要件を満たすという課題を同時に解決すべく尽力する企業の間で、データリテラシーというバズワードが生まれました。経験豊富なデータエンジニア、データサイエンティスト、機械学習エンジニアで構成する大規模なデータチームが存在しない企業においても、データ資産の構築と、それを活用した実運用が求められます。しかし、実運用に向けたスケーリングは容易なことではありません。このような状況を受け、Databricks では、ノーコードデータ分析ツール bamboolib を提供するフランクフルト拠点のスタートアップ企業 8080 Labs を買収しました。市民データサイエンティストによるデータ分析を促進させる bamboolib をサービスの一部として迎え入れることは、Databrick

Part 1：Databricks Notebook と Azure DevOps で Databricks に CI/CD を実装

September 20, 2021 マイケル・シュテルマ、Piotr Majer による投稿 in プラットフォームブログ

ブログ内に掲載されているコードの詳細は、こちらからご覧ください。このブログは、エンドツーエンドの MLOps ソリューションを Databricks Notebook と Repos API を使用して設定、構築する方法を解説するブログシリーズの Part 1 です。今回は、Notebook をベースとした Databricks における CI/CD（継続的インテグレーション／継続的デリバリ）フレームワークについて解説します。継続的インテグレーション（CI）は Microsoft Azure DevOps のエコシステムと、継続的デリバリ（CD）は...

Databricks SQL の最新イテレーション、新たな性能、速度改善

September 8, 2021 Reynold Xin（レイノルド・シン）、カン・エフェオグルによる投稿 in プラットフォームブログ

Data+AI サミット 2020 Europe で発表した Databricks SQL は、マルチクラウドのレイクハウスアーキテクチャの運用を可能にし、データウェアハウスの性能とデータレイクの経済性を同時に実現します。Databricks では、レイクハウスを活用した知見の抽出および共有を容易にすることを目標に、データアナリスト向けに、最適化された SQL UI や主要な BI ツールの充実したサポート機能を含む、シンプルで使いやすいツールの提供に尽力しています。 Databricks SQL についても同様に、性能、使いやすさ、ガバナンスの向上を目指してイノベーションに日々取り組んでいます。その内容について、複数回のブログを通じてご紹介する予定です。今回は、その第一弾として、以下の各シナリオにおける Databricks SQL...

FAIR 原則に基づく効率的なデータ管理をレイクハウスで実現

September 7, 2021 Greg Wood、Amir Kermany による投稿 in プラットフォームブログ

科学における発見とイノベーションの原動力となるデータ。そのデータの価値は、データ管理戦略によって左右されます。データ管理戦略は、データの品質、アクセスの容易さ、結果の再現性を確保するための重要な要素であり、信頼できる科学的なエビデンスを得るうえで欠かすことができません。あらゆる分野の科学者が大規模なデータセットにアクセスできるようになったことで、管理や制御の煩雑さ、再現不能なデータワークフローをはじめとするビッグデータの問題が過去 10 年間で顕著になり、解決すべき課題となっています。これを受けて、業界の専門家は、「価値あるデジタル資産の長期的な管理」を中核とした「適切なデータ管理とスチュワードシップ」のフレームワークを策定しました。このことは、2016 年に「 Nature 」誌の記事で初めて取り上げられています。このフレームワークは現在 FAIR 原則として認知されています。FAIR 原則は、デジタル資産の Findability（検索性）、Accessibility（アクセス性）、Interoperab

データレイクで増分 ETL のメリットを活かす - CDC の課題など

August 30, 2021 John O'Dwyer による投稿 in データエンジニアリング

従来のデータウェアハウスでの増分 ETL といえば、CDC（change data capture、変更データキャプチャ）を利用する方法が一般的になっています。しかし、スケーラビリティ、コスト、状態の把握や機械学習との連携が困難であることなどの問題があり、この CDC により増分 ETL を実行する方法は、必ずしも理想的とはいえません。一方、データレイクでの増分 ETL は、これまで、ビッグデータのテーブルのデータ更新や変更データの特定ができないといった理由により不可能とされてきました。しかし今日、データレイクで増分 ETL を利用することが可能になりました！増分 ETL には多くのメリットがあります。効率性やシンプルさ、データサイエンティストやデータアナリストのどちらも利用できる柔軟なデータアーキテクチャの構築などが挙げられます。このブログでは、データレイクで増分 ETL を使用するメリットと、それをサポートするデータアーキテクチャについて解説します。増分 ETL とは？まず、増分 ETL とは何かを明らか

データレイクハウスに関する FAQ

August 30, 2021 Michael Armbrust、Bharath Gowda、Reynold Xin（レイノルド・シン）、Matei Zaharia、Ali Ghodsi による投稿 in プラットフォームブログ

FAQ （よくある質問）データレイクハウスとは？データレイクとは？データウェアハウスとは？データレイクハウスとデータウェアハウスの違いは何ですか？データレイクハウスとデータレイクの違いは何ですか？データアナリストは容易にデータレイクハウスを利用できますか？データレイクハウスとデータウェアハウスの価格性能の比較を教えてください。データレイクハウスはどのようなデータガバナンス機能をサポートしていますか？データレイクハウスは一元化する必要がありますか？それともデータメッシュに分散できますか？データメッシュとデータレイクハウスとの関係は？データレイクハウスとは？データレイクハウスとは、データレイクに格納された膨大なデータに対して、効率的かつセキュアに人工知能（AI）やビジネスインテリジェンス（BI）を直接実行できるアーキテクチャです。現在、企業ではデータの大部分をデータレイクに格納しています。データレイクは、あらゆる種類のデータ（構造化、非構造化を問わない）を管理し、どんな処理ツールでも実行

Databricks で構築するエンドツーエンドの深層学習パイプライン

August 25, 2021 Oliver Koernig、Ashley Trainor による投稿 in プラットフォームブログ

深層学習（DL）モデルは、金融サービスにおける不正検知、メディアにおけるパーソナライゼーション、ヘルスケアにおける画像認識など、あらゆる業界のユースケースに適用されています。このような応用範囲の拡大により、深層学習技術の使用は、ほんの数年前に比べてはるかに容易になっています。 TensorFlow や Pytorch などよく使用される深層学習フレームワークは、精度の高いパフォーマンスを発揮できるまでに成熟しています。マネージド MLflow を備えた Databricks のレイクハウスプラットフォームのような機械学習（ML）環境では、 Horovod や Pandas UDF などのツールを使用した深層学習の分散実行が非常に容易になりました。課題現在でも引き続き残っている主要な課題の 1 つは、制御・再現可能な方法で深層学習の機械学習パイプラインを自動化し、運用を最適化することです。 Kubeflow のような技術はソリューションを提供していますが、多くの場合、深い専門知識を必要とし、利用可能なマネー

Databricks Beacons プログラムのご紹介

August 12, 2021 Karen Bajza による投稿 in Databricks ブログ

学術界とオープンソースコミュニティをルーツとする Databricks は、その成功が、データサイエンティスト、データエンジニア、開発者、データアーキテクト、データアナリスト、オープンソースの貢献者、データエバンジェリストなど、コミュニティによって支えられていることを理解しています。 Databricks Beacons プログラムは、データと AI のコミュニティを向上させるために尽力している方々に感謝し、その功績を称えるためのものです。 Beacons は、ハリファクス（カナダ）や、東京（日本）、チューリッヒ（スイス）、杭州（中国）など世界中に存在し、オン／オフラインの両方で、積極的な知識の共有をコミットしてくれています。 Lorenz Waltherts 氏は、Beacons への参加について「コミュニティの一員として、知識を共有したり、学ぶことができることを光栄に思います。」と述べています。「Beacon」（灯台や標識塔）という名称は、私たちの道を照らしてくれるガイドのような存在であることから、選ばれま

BI ツールの広帯域接続を実現するには

August 11, 2021 Bogdan Ionut Ghit、Juliusz Sompolski、ステファニア・レオーネ、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Tableau や Microsoft Power BI などのビジネスインテリジェンス（BI）ツールは、従来のデータウェアハウスから大規模なクエリ結果を抽出するのに多くの時間を要することで知られています。これは、通常、データ転送のボトルネックとなる SQL エンドポイントを介してシングルスレッドでデータを取得するためです。Databricks の SQL エンドポイントに使用している BI ツールを接続することで、データアナリストは、Simba ドライバに統合された ODBC/JDBC プロトコルを介してテーブルのデータのクエリを実行できます。また、Databricks ランタイム 8.3 および Simba ODBC 2.6.17 ドライバでリリースした...