メインコンテンツへジャンプ
ログイン
      • Databricks を知る
        • エグゼクティブ向け
          • スタートアップ向け
            • レイクハウスアーキテクチャ
              • Mosaic Research
              • 導入事例
                • 注目の導入事例
                • パートナー
                  • クラウドプロバイダ
                    Databricks on AWS、Azure、GCP
                    • コンサルティング・SI
                      Databricks の構築・デプロイ、Databricks への移行のエキスパート
                      • 技術パートナー
                        既存のツールをレイクハウスに接続
                        • C&SI パートナー
                          レイクハウスの構築・デプロイメント、レイクハウスへの移行
                          • データパートナー
                            データコンシューマーのエコシステムにアクセス
                            • パートナーソリューション
                              業界・移行のニーズに応じたカスタムソリューション
                              • Databricks で構築
                                ビジネスの創造・マーケティング・成長
                              • Databricks プラットフォーム
                                • プラットフォームの概要
                                  データ・分析・AI のための統合プラットフォーム
                                  • データ管理
                                    データの信頼性・セキュリティ・パフォーマンス
                                    • 共有
                                      オープン、セキュア、ゼロコピーでのデータ共有
                                      • データウェアハウジング
                                        バッチ、ストリーミングデータのための ETL とオーケストレーション
                                        • ガバナンス
                                          データ・分析・AI のための統合ガバナンス
                                          • データエンジニアリング
                                            バッチ、ストリーミングデータのための ETL とオーケストレーション
                                            • 人工知能(AI)
                                              ML と生成 AI アプリケーションの構築とデプロイメント
                                              • データサイエンス
                                                データサイエンスの大規模な連携
                                                • BI
                                                  実世界データのインテリジェント分析
                                                  • アプリケーション開発
                                                    安全なデータと AI アプリを迅速に構築
                                                    • データベース
                                                      データアプリとAIエージェントのための Postgres
                                                    • 統合とデータ
                                                      • マーケットプレイス
                                                        データ、分析、AI のためのオープンマーケットプレイス
                                                        • IDE 統合
                                                          お気に入りの IDE(統合開発環境)でレイクハウスを構築
                                                          • パートナーコネクト
                                                            Databricks エコシステムの検索と統合
                                                          • ご利用料金
                                                            • Databricks のご利用料金
                                                              料金設定、DBU、その他
                                                              • コスト計算ツール
                                                                クラウド利用でのコンピュートコストの試算
                                                              • オープンソース
                                                                • オープンソーステクノロジー
                                                                  プラットフォームを支えるイノベーションをもっと詳しく
                                                                • 業界向け Databricks
                                                                  • 通信
                                                                    • メディア・エンターテイメント
                                                                      • 金融サービス
                                                                        • 官公庁・公共機関
                                                                          • 医療・ライフサイエンス
                                                                            • リテール・消費財
                                                                              • 製造
                                                                                • 全て見る
                                                                                • クロスインダストリーソリューション
                                                                                  • AI Agents
                                                                                    • サイバーセキュリティ
                                                                                      • マーケティング
                                                                                      • 移行・デプロイメント
                                                                                        • データの移行
                                                                                          • プロフェッショナルサービス
                                                                                          • ソリューションアクセラレータ
                                                                                            • ソリューションアクセラレータ一覧
                                                                                              成果を加速
                                                                                            • トレーニング・認定試験
                                                                                              • トレーニング概要
                                                                                                ニーズに合わせたカリキュラムを探す
                                                                                                • Databricks アカデミー
                                                                                                  Databricks ラーニングプラットフォームにサインインする
                                                                                                  • 認定
                                                                                                    スキル・認定で差別化を図る
                                                                                                    • 無料版
                                                                                                      専門家向けデータとAIツールを無料で学べます
                                                                                                      • 大学との連携
                                                                                                        Databricks を教材として活用
                                                                                                      • イベント
                                                                                                        • DATA+AI サミット
                                                                                                          • Data+AI ワールドツアー
                                                                                                            • Data Intelligence Days
                                                                                                              • イベントカレンダー
                                                                                                              • ブログ・ポッドキャスト
                                                                                                                • Databricks ブログ
                                                                                                                  最新情報、製品発表、その他の情報
                                                                                                                  • Databricks Mosaic AIリサーチブログ
                                                                                                                    AI世代に関する最新リサーチ
                                                                                                                    • Data Brew ポッドキャスト
                                                                                                                      ご相談・お問い合わせ
                                                                                                                      • ポッドキャスト:Data+AI のチャンピオン
                                                                                                                        イノベーションを支えるデータリーダーのインサイト
                                                                                                                      • お役立ちリソース
                                                                                                                        • カスタマーサポート
                                                                                                                          • ドキュメント
                                                                                                                            • コミュニティ
                                                                                                                            • もっと詳しく
                                                                                                                              • リソースセンター
                                                                                                                                • デモセンター
                                                                                                                                  • アーキテクチャ センター
                                                                                                                                  • 企業概要
                                                                                                                                    • Databricks について
                                                                                                                                      • 経営陣
                                                                                                                                        • Databricks Ventures
                                                                                                                                          • ご相談・お問い合わせ
                                                                                                                                          • 採用情報
                                                                                                                                            • 採用情報概要
                                                                                                                                              • 求人情報
                                                                                                                                              • プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                  • 受賞歴と業界評価
                                                                                                                                                  • セキュリティと信頼
                                                                                                                                                    • セキュリティと信頼
                                                                                                                                                • 是非ご検討ください!
                                                                                                                                                • デモを見る
                                                                                                                                                • ログイン
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                • Databricks 無料トライアル
                                                                                                                                                1. ブログ
                                                                                                                                                2. /
                                                                                                                                                  オープンソース
                                                                                                                                                3. /
                                                                                                                                                  記事

                                                                                                                                                PySpark Native Plottingのご紹介

                                                                                                                                                PySpark DataFrameから簡単にビジュアライゼーションを作成

                                                                                                                                                PySpark UDF Unified Profiling

                                                                                                                                                Published: June 9, 2025

                                                                                                                                                オープンソース1分未満

                                                                                                                                                Xinrong Meng、鄭瑞峰 による投稿

                                                                                                                                                この投稿を共有する

                                                                                                                                                最新の投稿を通知します

                                                                                                                                                Summary

                                                                                                                                                • PySpark Native Plottingの紹介:このブログでは、PySparkに組み込みの視覚化機能が必要である理由を説明し、Spark上のPandas APIとネイティブpandas DataFramesからユーザーが期待する機能との整合性を図っています。
                                                                                                                                                • 主な特長と機能:私たちは、さまざまなサポートされているプロットタイプ、PySparkのプロットが効率的なデータ処理戦略(例えば、サンプリング、グローバルメトリクス)をどのように活用しているか、そしてPlotlyとの統合による視覚化について説明します。
                                                                                                                                                • 実用的な例:私たちは、実用的な例を用いてPySparkプロットをデモンストレーションし、視覚化の作成とカスタマイズのガイド、プロットから得られる行動可能な洞察のハイライトを行います。

                                                                                                                                                はじめに

                                                                                                                                                Databricks Runtime 17.0(リリースノート)でPySparkにネイティブプロットが導入されたことを大変嬉しく思います。これはデータ可視化にとって大きな進歩です。データを視覚化するためにツール間を行き来する必要はもうありません。今では、PySparkのデータフレームから直接美しく直感的なプロットを作成できます。それは速く、シームレスで、直接組み込まれています。この待望の機能により、データの探索がこれまで以上に簡単でパワフルになりました。

                                                                                                                                                PySparkでビッグデータを扱うことは常に強力で、特に大規模なデータセットの変換や分析においてはその力を発揮します。PySparkのデータフレームはスケールとパフォーマンスのために構築されていますが、ユーザーは以前、プロットを生成するためにそれらをApache Spark™上のPandas APIのデータフレームに変換する必要がありました。しかし、この追加のステップは可視化ワークフローを必要以上に複雑にしていました。PySparkとpandasスタイルのDataFramesの構造の違いは、しばしば摩擦を引き起こし、データを視覚的に探索するプロセスを遅らせました。

                                                                                                                                                例

                                                                                                                                                以下は、PySparkプロットを使用して、さまざまな製品カテゴリーでの売上、利益、利益率を分析する例です。

                                                                                                                                                まず、以下に示すように、異なる製品カテゴリーの売上と利益データを含むデータフレームから始めます:

                                                                                                                                                私たちの目標は、売上と利益の関係を視覚化し、さらに利益率を追加の視覚次元として組み込むことで、分析をより意味のあるものにすることです。以下はプロットを作成するためのコードです:

                                                                                                                                                “fig”は“plotly.graph_objs._figure.Figure”型であることに注意してください。既存のPlotly機能を使用してレイアウトを更新することで、その見た目を向上させることができます。調整後の図は次のようになります:

                                                                                                                                                図から、さまざまなカテゴリーにおける売上と利益の間に明確な関係が見て取れます。例えば、エレクトロニクスは高い売上と利益を示していますが、利益率は比較的適度で、収益生成は強力ですが、効率の向上の余地があることを示しています。

                                                                                                                                                PySparkプロットの特徴

                                                                                                                                                ユーザーインターフェース

                                                                                                                                                ユーザーは、PySparkデータフレームのプロットプロパティを呼び出し、サブメソッドとしてまたは“kind”パラメータを設定することで、希望するプロットタイプを指定することでPySparkプロットと対話します。例えば:

                                                                                                                                                あるいは同等に:

                                                                                                                                                このデザインは、Apache Spark上のPandas APIとネイティブのpandasのインターフェースに合わせており、pandasのプロットに既に慣れているユーザーにとって一貫性のある直感的な体験を提供します。

                                                                                                                                                サポートされているプロットタイプ

                                                                                                                                                PySparkプロットは、ライン、バー(水平を含む)、エリア、スキャッター、パイ、ボックス、ヒストグラム、密度/KDEプロットなど、一般的なチャートタイプを多数サポートしています。これにより、ユーザーはPySparkのデータフレームから直接トレンド、分布、比較、関係を視覚化することができます。

                                                                                                                                                内部処理について

                                                                                                                                                この機能は、豊富でインタラクティブなプロット機能を提供するデフォルトの視覚化バックエンドとしてPlotly(バージョン4.8以降)によって動作し、ほとんどのプロットのデータ処理にはネイティブのpandasが内部的に使用されています。

                                                                                                                                                プロットタイプにより、PySparkプロッティングのデータ処理は3つの戦略のうちの1つを通じて処理されます:

                                                                                                                                                • トップN行: プロットプロセスは、DataFrameから限られた数の行(デフォルト:1000)を使用します。これは“spark.sql.pyspark.plotting.max_rows”を使用して設定できます。オプション、これにより迅速な洞察に効率的です。これはバープロット、水平バープロット、パイプロットに適用されます。
                                                                                                                                                • サンプリング: ランダムサンプリングは、全データセットを処理することなく全体の分布を効果的に表現します。これにより、代表性を維持しながらスケーラビリティが確保されます。これはエリアプロット、ラインプロット、スキャッタープロットに適用されます。
                                                                                                                                                • グローバルメトリクス: ボックスプロット、ヒストグラム、および密度/KDEプロットの場合、計算はデータセット全体で行われます。これにより、データ分布の正確な表現が可能となり、統計的な正確さが確保されます。

                                                                                                                                                このアプローチは、各プロットタイプのApache Sparkプロット戦略に対するPandas APIを尊重し、さらなるパフォーマンスの改善を提供します:

                                                                                                                                                • サンプリング:以前は、データセット全体を二度通過する必要がありました - 一度目はサンプリング比率を計算し、二度目は実際のサンプリングを行うためです。私たちは、レザボワーサンプリングに基づく新しい方法を実装し、それを一回のパスに縮小しました。
                                                                                                                                                • サブプロット:各列がサブプロットに対応する場合、すべての列のメトリクスを一緒に計算するようになり、効率が向上しました。
                                                                                                                                                • MLベースのプロット:これらのプロットのために専用の内部SQL式を導入し、コード生成などのSQL側の最適化を可能にしました。

                                                                                                                                                まとめ

                                                                                                                                                PySpark Native Plottingは、PySparkと直感的なデータ可視化の間のギャップを埋めます。この機能により、PySparkユーザーはPySparkのデータフレームから直接高品質のプロットを作成することができ、データ分析をこれまで以上に迅速かつアクセスしやすくします。ぜひDatabricks Runtime 17.0でこの機能を試して、データ可視化体験を向上させてください!

                                                                                                                                                もっと探求してみませんか?PySpark APIドキュメンテーションをチェックして、詳細なガイドと例を確認してください。

                                                                                                                                                最新の投稿を通知します

                                                                                                                                                関連記事

                                                                                                                                                PySpark in 2023: A Year in Review

                                                                                                                                                データエンジニアリング

                                                                                                                                                March 25, 2024/2分で読めます

                                                                                                                                                2023年のPySpark:1年を振り返って

                                                                                                                                                この投稿を共有する

                                                                                                                                                Databricksの投稿を見逃さないようにしましょう

                                                                                                                                                興味のあるカテゴリを購読して、最新の投稿を受信トレイに届けましょう

                                                                                                                                                Sign up

                                                                                                                                                次は何ですか?

                                                                                                                                                Booting Databricks VMs 7x Faster for Serverless Compute

                                                                                                                                                データエンジニアリング

                                                                                                                                                November 25, 2024/1分未満

                                                                                                                                                DatabricksのサーバーレスコンピュートでVM起動を7倍高速化

                                                                                                                                                Batch Inference on Fined Tuned Llama Models with Mosaic AI Model Serving

                                                                                                                                                製品

                                                                                                                                                December 10, 2024/2分で読めます

                                                                                                                                                ファインチューニングされたラマモデルに対するバッチ推論とMosaic AIモデル提供

                                                                                                                                                databricks logo
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                • エグゼクティブ向け
                                                                                                                                                • スタートアップ向け
                                                                                                                                                • レイクハウスアーキテクチャ
                                                                                                                                                • Mosaic Research
                                                                                                                                                導入事例
                                                                                                                                                • 注目の導入事例
                                                                                                                                                パートナー
                                                                                                                                                • クラウドプロバイダ
                                                                                                                                                • 技術パートナー
                                                                                                                                                • データパートナー
                                                                                                                                                • Databricks で構築
                                                                                                                                                • コンサルティング・SI
                                                                                                                                                • C&SI パートナー
                                                                                                                                                • パートナーソリューション
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                • エグゼクティブ向け
                                                                                                                                                • スタートアップ向け
                                                                                                                                                • レイクハウスアーキテクチャ
                                                                                                                                                • Mosaic Research
                                                                                                                                                導入事例
                                                                                                                                                • 注目の導入事例
                                                                                                                                                パートナー
                                                                                                                                                • クラウドプロバイダ
                                                                                                                                                • 技術パートナー
                                                                                                                                                • データパートナー
                                                                                                                                                • Databricks で構築
                                                                                                                                                • コンサルティング・SI
                                                                                                                                                • C&SI パートナー
                                                                                                                                                • パートナーソリューション
                                                                                                                                                製品
                                                                                                                                                レイクハウスプラットフォーム
                                                                                                                                                • プラットフォーム
                                                                                                                                                • 共有
                                                                                                                                                • データガバナンス
                                                                                                                                                • 人工知能(AI)
                                                                                                                                                • DBRX
                                                                                                                                                • データベース
                                                                                                                                                • データ管理
                                                                                                                                                • データウェアハウス
                                                                                                                                                • データエンジニアリング
                                                                                                                                                • データサイエンス
                                                                                                                                                • アプリケーション開発
                                                                                                                                                ご利用料金
                                                                                                                                                • 料金設定の概要
                                                                                                                                                • 料金計算ツール
                                                                                                                                                オープンソース
                                                                                                                                                統合とデータ
                                                                                                                                                • マーケットプレイス
                                                                                                                                                • IDE 統合
                                                                                                                                                • パートナーコネクト
                                                                                                                                                レイクハウスプラットフォーム
                                                                                                                                                • プラットフォーム
                                                                                                                                                • 共有
                                                                                                                                                • データガバナンス
                                                                                                                                                • 人工知能(AI)
                                                                                                                                                • DBRX
                                                                                                                                                • データベース
                                                                                                                                                • データ管理
                                                                                                                                                • データウェアハウス
                                                                                                                                                • データエンジニアリング
                                                                                                                                                • データサイエンス
                                                                                                                                                • アプリケーション開発
                                                                                                                                                ご利用料金
                                                                                                                                                • 料金設定の概要
                                                                                                                                                • 料金計算ツール
                                                                                                                                                統合とデータ
                                                                                                                                                • マーケットプレイス
                                                                                                                                                • IDE 統合
                                                                                                                                                • パートナーコネクト
                                                                                                                                                ソリューション
                                                                                                                                                業種別
                                                                                                                                                • 通信
                                                                                                                                                • 金融サービス
                                                                                                                                                • 医療・ライフサイエンス
                                                                                                                                                • 製造
                                                                                                                                                • メディア・エンタメ
                                                                                                                                                • 官公庁・公共機関
                                                                                                                                                • リテール・消費財
                                                                                                                                                • 全て表示
                                                                                                                                                クロスインダストリーソリューション
                                                                                                                                                • サイバーセキュリティ
                                                                                                                                                • マーケティング
                                                                                                                                                データの移行
                                                                                                                                                プロフェッショナルサービス
                                                                                                                                                ソリューションアクセラレータ
                                                                                                                                                業種別
                                                                                                                                                • 通信
                                                                                                                                                • 金融サービス
                                                                                                                                                • 医療・ライフサイエンス
                                                                                                                                                • 製造
                                                                                                                                                • メディア・エンタメ
                                                                                                                                                • 官公庁・公共機関
                                                                                                                                                • リテール・消費財
                                                                                                                                                • 全て表示
                                                                                                                                                クロスインダストリーソリューション
                                                                                                                                                • サイバーセキュリティ
                                                                                                                                                • マーケティング
                                                                                                                                                リソース
                                                                                                                                                ドキュメント
                                                                                                                                                カスタマーサポート
                                                                                                                                                コミュニティ
                                                                                                                                                トレーニング・認定試験
                                                                                                                                                • トレーニング
                                                                                                                                                • 認定
                                                                                                                                                • 無料版
                                                                                                                                                • 大学との連携
                                                                                                                                                • Databricks アカデミー
                                                                                                                                                イベント
                                                                                                                                                • DATA+AI サミット
                                                                                                                                                • Data+AI ワールドツアー
                                                                                                                                                • Data Intelligence Days
                                                                                                                                                • イベントカレンダー
                                                                                                                                                ブログ・ポッドキャスト
                                                                                                                                                • Databricks ブログ
                                                                                                                                                • Databricks Mosaic AIリサーチブログ
                                                                                                                                                • Data Brew ポッドキャスト
                                                                                                                                                • Data+AI のチャンピオンシリーズ
                                                                                                                                                トレーニング・認定試験
                                                                                                                                                • トレーニング
                                                                                                                                                • 認定
                                                                                                                                                • 無料版
                                                                                                                                                • 大学との連携
                                                                                                                                                • Databricks アカデミー
                                                                                                                                                イベント
                                                                                                                                                • DATA+AI サミット
                                                                                                                                                • Data+AI ワールドツアー
                                                                                                                                                • Data Intelligence Days
                                                                                                                                                • イベントカレンダー
                                                                                                                                                ブログ・ポッドキャスト
                                                                                                                                                • Databricks ブログ
                                                                                                                                                • Databricks Mosaic AIリサーチブログ
                                                                                                                                                • Data Brew ポッドキャスト
                                                                                                                                                • Data+AI のチャンピオンシリーズ
                                                                                                                                                企業情報
                                                                                                                                                企業概要
                                                                                                                                                • Databricks について
                                                                                                                                                • 経営陣
                                                                                                                                                • Databricks Ventures
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                • 求人情報
                                                                                                                                                プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                • 受賞歴と業界評価
                                                                                                                                                セキュリティと信頼
                                                                                                                                                企業概要
                                                                                                                                                • Databricks について
                                                                                                                                                • 経営陣
                                                                                                                                                • Databricks Ventures
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                • 求人情報
                                                                                                                                                プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                • 受賞歴と業界評価
                                                                                                                                                databricks logo

                                                                                                                                                Databricks Inc.
                                                                                                                                                160 Spear Street, 15th Floor
                                                                                                                                                San Francisco, CA 94105
                                                                                                                                                1-866-330-0121

                                                                                                                                                採用情報

                                                                                                                                                © Databricks 2025. All rights reserved. Apache, Apache Spark, Spark and the Spark logo are trademarks of the Apache Software Foundation.

                                                                                                                                                • プライバシー通知
                                                                                                                                                • |利用規約
                                                                                                                                                • |現代奴隷法に関する声明
                                                                                                                                                • |カリフォルニア州のプライバシー権利
                                                                                                                                                • |プライバシー設定