Databricksワークフローの最新アップデート
Databricksワークフロー はDatabricksデータインテリジェンスプラットフォームの土台であり、世界中の数千の組織の重要なデータとAIのワークロードを動かす オーケストレーションエンジン として機能します。これを認識して、Databricksは現代のデータエンジニアリングとAIプロジェクトの進化するニーズを満たすために、ワークフローの進化に投資を続けています。 この夏、私たちはこれまでで最大の Data + AI Summit を開催し、Databricksワークフローにいくつかの画期的な機能と強化を発表しました。Data + AI Summitで発表された最近のアップデートには、新たなデータ駆動型トリガー、AI支援のワークフロー作成、強化されたSQL統合などが含まれており、これらはすべて信頼性、スケーラビリティ、使いやすさの向上を目指しています。また、自動管理のためのIaC(インフラストラクチャ・アズ・コード)ツールであるPyDABsやTerraform、そしてワークフローのサーバーレスコンピューテ
Delta Sharing Tableauコネクタを使用してリアルタイムのクロスプラットフォームコラボレーションを実現する
Kevin Glover、Martin Ko、Kuber Sharma、Tableauのチームにこのブログへの貴重な洞察と貢献に感謝します。 組織は、協力を促進し、イノベーションを推進するために、パートナー、顧客、およびサプライヤーとデータを共有する必要があります。しかし、これらの多様でしばしば孤立したデータセットをデータプラットフォーム間でアクセス、共有、保護する現実は、しばしば摩擦と複雑さを生み出し、協力を阻害します。これに対処するために、DatabricksとLinux Foundationは Delta Sharing を導入しました。これは、プラットフォームに依存しないデータ共有のための最初のオープンソースプロトコルで、組織がデータプラットフォームと組織の境界を超えて協力を安全に拡大することを可能にします。 プラットフォーム間でのデータ共有を可能にし、データ駆動型の洞察を民主化するという元々の約束を果たすために、DatabricksとTableauは最近パートナーシップを拡大し、 新しいDelta Sh
AI/BI Genieの利用を開始する
Databricksでは、地球上のすべての人々がデータとAIにアクセスできるようにしたいと考えています。これが、ビジネスユーザーが、SQLを話すこともコードを書くこともなく、信頼できる洞察を迅速かつ正確に得ることができるようにする AI/BI のようなソリューションを構築している理由です。 現在、ダッシュボードはほとんどの人々の日常生活の一部となっています。一方、 AI/BI Genie は新しい経験であり、まだ多くの人々が馴染みがないかもしれません。Genieを使用すると、ユーザーは自己サービスで、ダッシュボードで対処されていない質問に対する答えを得ることができ、BIツールの使用方法を学んだり、専門家に洞察を作成してもらうことなく、答えを得ることができます。この背景を踏まえて、ジニーの一日を見てみると、どのように使用するか、何を期待するかを理解するのに役立つかもしれません。 「新入社員」としてのGenieへのオリエンテーション 一部の人々は、Genieを作成するプロセスを、新しいアナリストをデータチームに雇うこ
Databricks on Google CloudでサーバーレスSQLの一般提供を開始
本日、 Databricks SQL Serverless がGoogle Cloud Platform(GCP)で一般提供開始されたことをお知らせします。Databricks SQL Serverlessは、データインテリジェンスプラットフォームの主要コンポーネントとして、瞬時に伸縮自在なコンピューティングにより最高のパフォーマンスを提供し、コストを削減して、インフラストラクチャの管理ではなくビジネス価値の提供に集中できるようにします。この一般提供リリースは、最高のデータウェアハウスはレイクハウスであり、データレイクとウェアハウスを統合して統一的なアプローチを提供するという私たちの信念を強化します。SQL Serverlessは現在、7つのGCPリージョンと、すべての主要なクラウドプロバイダー( AWS 、 Azure 、GCP)の40以上のリージョンで利用可能です。 GCP上のDatabricks SQL Serverlessの利点 過去数年間で、レイクハウス専用に設計されたデータウェアハウスであるDatab
スーパーノヴァ!ブラックホール!ストリーミングデータ!
Translation Reviewed by Akihiro.Kuwano 概要 このブ ログ投稿は、Data + AI Summit 2024でのセッション スーパーノヴァからLLMsへ のフォローアップで、ここでは誰でもApache Kafkaから公開されているNASAの衛星データを消費し、処理する方法を示しました。 多くのKafkaのデモとは異なり、再現性が低いか、シミュレートされたデータに依存しているのではなく、私はNASAの公開されている ガンマ線座標ネットワーク (GCN)からのライブデータストリームの分析方法を示します。これは、さまざまな衛星から来るスーパーノヴァとブラックホールのデータを統合しています。 オープンソースの Apache Spark™ と Apache Kafka だけを使ってソリューションを作ることも可能ですが、このタスクには...
プライバシー保護されたコラボレーションを実現する Databricks Clean Rooms がパブリック プレビューに登場
イノベーションのための外部データと AI の急激な増加に後押しされ、あらゆる業界の組織が、プライバシーを守りながらパートナーと連携する効果的な方法を模索しています。 一部の組織ではコラボレーション ソリューションが限られており、データがどのように使用されるかについての可視性がほ とんどまたはまったくない状態で、機密データの共有方法に関する制御を放棄する必要があることがよくあります。 これにより、データの誤用やデータプライバシーの侵害の可能性が高まる大きなリスクが生じます。 組織は、オープンで柔軟でありながらプライバシーが保護された方法でデータに共同作業を行い、AI を実行する必要があります。Databricks Clean Rooms は、これらの重要なニーズを満たします。 今年の Data + AI Summit で最近発表した ように、Clean Rooms は AWS と Azure...
Databricks Unity Catalog による行レベルおよび列レベルのセキュリティの一般提供開始のお知らせ
AWS 、 Azure 、 GCP 上の Unity Catalog で行フィルターと列マスクが一般提供されることをお知らせします。テーブル内の行と列に対するきめ細かな アクセス制御を管理することは、データセキュリティを確保し、コンプライアンスを満たすために不可欠です。 Unity Catalog を使用すると、標準の SQL 関数を使用して行フィルターと列マスクを定義し、行と列に対するきめ細かいアクセス制御が可能になります。 行フィルターを使用すると、組織内のグループとユーザーの階層に表示されるテーブルの行のサブセットを制御できます。 列マスクを使用すると、同じディメンションに基づいてテーブルの値を編集できます。 「Unity Catalog のおかげで、データ資産の統一されたビューを作成できるようになり、BlackBerry 内のチーム間のコラボレーションが簡素化されました。 現在、アクセス権限を管理し、レイク内のファイルまたはテーブルを監査するための標準的なアプローチがあり、行と列に対するきめ細かなアクセス制
「Photon」で特徴量エンジニアリングを加速せよ!
高品質な機械学習モデルの訓練には、慎重なデータと特徴量の準備が必要です。Databricksにテーブルとして保存された生データをフルに活用するためには、ETLパイプラインの実行や特徴量エンジニアリングが必要となり、生データを有用な特徴量テーブルに変換することが求められます。テーブルが大きい場合、このステップは非常に時間がかかる ことがあります。今回、Databricks Machine Learning RuntimeでPhoton Engineを有効にできることを発表できることを嬉しく思います。 これにより、Sparkジョブや特徴量エンジニアリングのワークロードを2倍以上高速化することが可能になります。 「Photonを有効にし、新しいPITジョインを使用することで、私たちのフィーチャーストアを使用してトレーニングデータセットを生成するための時間が20倍以上短縮されました。」 - Sem Sinchenko, Advanced Analytics Expert Data Engineer, Raiffeisen
Lakehouse Monitoring 一般提供開始:インテリジェントなデータ品質のプロファイリング、診断、実施
Data and AI Summitで、我々は Databricks Lakehouse Monitoring の一般提供開始を発表しました。データとAIの監視に対する統一的なアプローチにより、 Databricks Data Intelligence Platform 内で直接プロファイルを作成し、診断し、品質を強制することが容易になります。これは直接 Unity Catalog 上に構築され ており、Lakehouse Monitoring ( AWS | Azure )は追加のツールや複雑さを必要としません。ダウンストリームプロセスが影響を受ける前に品質問題を発見することで、組織はデータへのアクセスを民主化し、データへの信頼を回復することができます。 なぜデータとモデルの品質が重要なのか...
Lakehouse Federationの一般提供を開始
本日、Unity CatalogのLakehouse FederationがAWS、Azure、GCPで一般提供 (GA) されたことをお知らせします。Lakehouse Federationを使用すると、すべてのデータを一か所で発見、クエリ、管理することができます。このGAリリースにより、連携ワークロードに対する安定性、セキュリティ、エンタープライズ対応が強化されます。 このブログ投稿では、Lakehouse FederationのGA機能について説明し、世界をリードする企 業でのアジャイルな分析をどのように支えているかを探求し、次に何が来るのかを議論します。 Lakehouse Federation入門 世界中の組織は、規模や業界に関係なく、データとAIを活用して革新を推進しています。しかし、歴史的、組織的、技術的な理由から、データはしばしば複数の運用および分析システムに分散して残っています。この断片化はいくつかの課題を引き起こします: すべてのデータを発見し、アクセスするのが難しい エンジニアリングのボトルネ