メインコンテンツへジャンプ

公開プレビュー:Databricks ジョブによる複数タスクのオーケストレーション

ドキュメントを読む 企業におけるビジネスインテリジェンス(BI)や、人工知能(AI)への取り組みの強化に伴い、シンプルで明確かつ信頼性の高いデータ処理タスクの オーケストレーション へのニーズが高まっています。Databricks のユーザーの選択肢はこれまで、複数のタスクを1つの Notebook で実行する、もしくは、別のワークフローのツールを使用して、ユーザーの環境全体をさらに複雑にするしかありませんでした。 本日、私たちは、タスクのオーケストレーションをサポートする Databricks ジョブのパブリックプレビューを発表しました。この機能により、複数タスクを有向非巡回グラフ(DAG)として実行することが可能になります。ジョブとは、Databricks のクラスタでアプリケーションを実行する非インタラクティブな方法です。例えば、ETL ジョブやデータ分析タスクをすぐに実行したり、スケジュールを設定して実行したりします。このジョブ内で複数のタスクをオーケストレーションする機能は、追加のコストは不要で、データ

Databricks on Google Cloud を 発表しました

February 17, 2021 Hiral Jasani による投稿 in お知らせ
Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。 オープンなクラウドとデータプラットフォームの融合 DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージ

Delta Engine の概要

本日、Databricks は Delta Engine を発表しました。Delta Engine は、Apache Spark 完全互換のベクトル化クエリエンジンで、最新の CPU アーキテクチャに対応し、Databricks Runtime 7.0 に含まれている Spark 3.0 のクエリオプティマイザおよびキャッシング性能の最適化機能を連携させます。その相乗効果により、データレイク、特に Delta Lake で実現されたデータレイクでのクエリ性能が大幅に高速化され、 レイクハウス アーキテクチャの採用やスケーリングが容易になります。 実行性能のスケーリング...

Apache Spark 3.0 概要|Python API の強化・PySpark API の拡充など新機能搭載

Apache Spark TM 3.0.0 が Databricks Runtime 7.0 で利用できるようになりました。Spark 3.0.0 はオープンソースコミュニティでの多くのコントリビュートが結実したものです。3,400 以上のパッチが含まれ、Python API および ANSI SQL の機能拡充に加え、開発や調査が行いやすくなるような工夫が施されています。オープンソースプロジェクトとして 10 年目を迎え、多くの参加者の意見と多様なユースケースに応え続けてきた結果が反映されています。 Apache Spark 3.0 の主な新機能...

Databricks Connect:ホスト型 Apache Spark™ をアプリ、マイクロサービスに

June 14, 2019 Eric Liang による投稿 in Databricks ブログ
Databricks Connect は、ネイティブな Apache Spark API を任意の Notebook、IDE、カスタムアプリから利用可能にするための新たなライブラリです。今回はその概要をご説明します。 概要 ここ数年、Apache Spark 向けにさまざまなカスタムアプリケーションコネクタが開発されています。spark-submit、REST ジョブサーバー、Notebook ゲートウェイなどのツールなどが含まれます。しかし、これらのツールには多くの制限があります。以下はその一部です。 汎用的でなく、特定の IDE や Notebook でのみ動作するものが多い。 アプリケーションを Spark クラスタ内でホストして実行することが必要な場合がある。 Spark...