メインコンテンツへジャンプ
ログイン
      • Databricks を知る
        • エグゼクティブ向け
          • スタートアップ向け
            • レイクハウスアーキテクチャ
              • Mosaic Research
              • 導入事例
                • 注目の導入事例
                • パートナー
                  • クラウドプロバイダ
                    Databricks on AWS、Azure、GCP
                    • コンサルティング・SI
                      Databricks の構築・デプロイ、Databricks への移行のエキスパート
                      • 技術パートナー
                        既存のツールをレイクハウスに接続
                        • C&SI パートナー
                          レイクハウスの構築・デプロイメント、レイクハウスへの移行
                          • データパートナー
                            データコンシューマーのエコシステムにアクセス
                            • パートナーソリューション
                              業界・移行のニーズに応じたカスタムソリューション
                              • Databricks で構築
                                ビジネスの創造・マーケティング・成長
                              • Databricks プラットフォーム
                                • プラットフォームの概要
                                  データ・分析・AI のための統合プラットフォーム
                                  • データ管理
                                    データの信頼性・セキュリティ・パフォーマンス
                                    • 共有
                                      オープン、セキュア、ゼロコピーでのデータ共有
                                      • データウェアハウジング
                                        バッチ、ストリーミングデータのための ETL とオーケストレーション
                                        • ガバナンス
                                          データ・分析・AI のための統合ガバナンス
                                          • データエンジニアリング
                                            バッチ、ストリーミングデータのための ETL とオーケストレーション
                                            • 人工知能(AI)
                                              ML と生成 AI アプリケーションの構築とデプロイメント
                                              • データサイエンス
                                                データサイエンスの大規模な連携
                                                • BI
                                                  実世界データのインテリジェント分析
                                                  • アプリケーション開発
                                                    安全なデータと AI アプリを迅速に構築
                                                    • データベース
                                                      データアプリとAIエージェントのための Postgres
                                                    • 統合とデータ
                                                      • マーケットプレイス
                                                        データ、分析、AI のためのオープンマーケットプレイス
                                                        • IDE 統合
                                                          お気に入りの IDE(統合開発環境)でレイクハウスを構築
                                                          • パートナーコネクト
                                                            Databricks エコシステムの検索と統合
                                                          • ご利用料金
                                                            • Databricks のご利用料金
                                                              料金設定、DBU、その他
                                                              • コスト計算ツール
                                                                クラウド利用でのコンピュートコストの試算
                                                              • オープンソース
                                                                • オープンソーステクノロジー
                                                                  プラットフォームを支えるイノベーションをもっと詳しく
                                                                • 業界向け Databricks
                                                                  • 通信
                                                                    • メディア・エンターテイメント
                                                                      • 金融サービス
                                                                        • 官公庁・公共機関
                                                                          • 医療・ライフサイエンス
                                                                            • リテール・消費財
                                                                              • 製造
                                                                                • 全て見る
                                                                                • クロスインダストリーソリューション
                                                                                  • AI Agents
                                                                                    • サイバーセキュリティ
                                                                                      • マーケティング
                                                                                      • 移行・デプロイメント
                                                                                        • データの移行
                                                                                          • プロフェッショナルサービス
                                                                                          • ソリューションアクセラレータ
                                                                                            • ソリューションアクセラレータ一覧
                                                                                              成果を加速
                                                                                            • トレーニング・認定試験
                                                                                              • トレーニング概要
                                                                                                ニーズに合わせたカリキュラムを探す
                                                                                                • Databricks アカデミー
                                                                                                  Databricks ラーニングプラットフォームにサインインする
                                                                                                  • 認定
                                                                                                    スキル・認定で差別化を図る
                                                                                                    • 無料版
                                                                                                      専門家向けデータとAIツールを無料で学べます
                                                                                                      • 大学との連携
                                                                                                        Databricks を教材として活用
                                                                                                      • イベント
                                                                                                        • DATA+AI サミット
                                                                                                          • Data+AI ワールドツアー
                                                                                                            • AI Days
                                                                                                              • イベントカレンダー
                                                                                                              • ブログ・ポッドキャスト
                                                                                                                • Databricks ブログ
                                                                                                                  最新情報、製品発表、その他の情報
                                                                                                                  • Databricks Mosaic AIリサーチブログ
                                                                                                                    AI世代に関する最新リサーチ
                                                                                                                    • Data Brew ポッドキャスト
                                                                                                                      ご相談・お問い合わせ
                                                                                                                      • ポッドキャスト:Data+AI のチャンピオン
                                                                                                                        イノベーションを支えるデータリーダーのインサイト
                                                                                                                      • お役立ちリソース
                                                                                                                        • カスタマーサポート
                                                                                                                          • ドキュメント
                                                                                                                            • コミュニティ
                                                                                                                            • もっと詳しく
                                                                                                                              • リソースセンター
                                                                                                                                • デモセンター
                                                                                                                                  • アーキテクチャ センター
                                                                                                                                  • 企業概要
                                                                                                                                    • Databricks について
                                                                                                                                      • 経営陣
                                                                                                                                        • Databricks Ventures
                                                                                                                                          • ご相談・お問い合わせ
                                                                                                                                          • 採用情報
                                                                                                                                            • 採用情報概要
                                                                                                                                              • 求人情報
                                                                                                                                              • プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                  • 受賞歴と業界評価
                                                                                                                                                  • セキュリティと信頼
                                                                                                                                                    • セキュリティと信頼
                                                                                                                                                • 是非ご検討ください!
                                                                                                                                                • デモを見る
                                                                                                                                                • ログイン
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                • Databricks 無料トライアル
                                                                                                                                                1. ブログ
                                                                                                                                                2. /
                                                                                                                                                  オープンソース
                                                                                                                                                3. /
                                                                                                                                                  記事

                                                                                                                                                Pandas API on Upcoming Apache Spark™ 3.2

                                                                                                                                                pandas-api-blog-og

                                                                                                                                                Published: October 4, 2021

                                                                                                                                                オープンソース2分で読めます

                                                                                                                                                によってHyukjin Kwon、Xinrong Meng による投稿

                                                                                                                                                この投稿を共有する

                                                                                                                                                最新の投稿を通知します

                                                                                                                                                Community Edition に代わって Free Edition が登場しました。追加費用なしで強化された機能を提供します。今すぐFree Edition のご利用を開始しましょう。
                                                                                                                                                 

                                                                                                                                                We’re thrilled to announce that the pandas API will be part of the upcoming Apache Spark™ 3.2 release.pandas は強力で柔軟なライブラリで、急速に成長して標準的なデータサイエンス ライブラリの1つになりました。pandas ユーザーは、既存の Spark クラスターで pandas API を活用できるようになります。

                                                                                                                                                数年前、私たちは Spark 上で pandas DataFrame API を実装するオープンソースプロジェクトである Koalas を立ち上げました。これは data scientists の間で広く採用されるようになりました。最近、Koalas は Project Zen の一環として SPIP: Support pandas API layer on PySpark によって PySpark に正式にマージされました (Data + AI Summit 2021 の Project Zen: Making Data Science Easier in PySpark もご参照ください)。

                                                                                                                                                pandas ユーザーは、今後の Spark 3.2 リリースで、わずか 1 行のコードを変更するだけでワークロードをスケールできるようになります。

                                                                                                                                                このブログ記事では、Spark 3.2 での pandas API のサポートをまとめ、注目すべき機能、変更点、ロードマップを紹介します。

                                                                                                                                                単一マシンを超えるスケーラビリティ

                                                                                                                                                pandas の既知の制限の 1 つは、単一マシンで処理するため、データ量に比例して直線的にスケールしないことです。例えば、単一マシンで利用可能なメモリよりも大きなデータセットを読み込もうとすると、pandas はメモリ不足で失敗します。

                                                                                                                                                pandas で大規模な CSV ファイルを読み込む際にメモリ不足が発生する例。
                                                                                                                                                pandas: 大規模な CSV を読み取るとメモリ不足が発生する

                                                                                                                                                pandas API on Spark はこの制限を克服し、Spark を活用することでユーザーが大規模なデータセットを扱えるようにします。

                                                                                                                                                Spark 上の pandas API を使用すると、OOM を引き起こすことなく大規模な CSV を読み取ることが可能になります。
                                                                                                                                                pandas API on Spark: 大規模なCSVの読み取り

                                                                                                                                                Spark 上の pandas API は、大規模なノードクラスターにもうまくスケールします。以下のグラフは、さまざまなサイズのクラスターで 15TB の Parquet データセットを分析する際のパフォーマンスを示しています。クラスター内の各マシンには、8個のvCPUと61GiBのメモリがあります。

                                                                                                                                                pandas API on Spark をスケールアウトし、異なるサイズのクラスターで大規模なデータセットを分析する際のパフォーマンス能力を実証します。
                                                                                                                                                pandas API on Spark のスケールアウト

                                                                                                                                                このテストでは、Spark 上の pandas API の分散実行はほぼ線形にスケールします。クラスター内のマシン数が2倍になると、経過時間は半分に減少します。単一のマシンと比較して、速度も大幅に向上します。例えば、標準偏差ベンチマークでは、256台のマシンからなるクラスタは、単一のマシンに比べてほぼ同じ時間で約250倍のデータを処理できます(各マシンは8 vCPU、61 GiBのメモリを搭載):

                                                                                                                                                 
                                                                                                                                                 単一マシン256台のマシンからなるクラスター
                                                                                                                                                Parquet データセット60GB60GB x 250 (15TB)
                                                                                                                                                標準偏差の経過時間 (秒)12秒10秒

                                                                                                                                                最適化された単一マシンのパフォーマンス

                                                                                                                                                pandas API on Spark は、Spark エンジンの最適化のおかげで、単一のマシンでも pandas を上回るパフォーマンスを発揮することがよくあります。下のグラフは、130GB の CSV データセットに対して、Spark 上の pandas API と、マシン(96 vCPU、384 GiB メモリ)上の pandas を比較したものです:

                                                                                                                                                パフォーマンス比較: pandas 対 pandas API on Spark
                                                                                                                                                Spark における pandas と pandas API の比較

                                                                                                                                                マルチスレッディングと Spark SQL の Catalyst オプティマイザーの両方が、パフォーマンスの最適化に貢献します。たとえば、Join count 演算は、whole-stage code generation を使用すると約4倍高速になります。コード生成なしの場合は 5.9 秒、コード生成ありの場合は 1.6 秒です。

                                                                                                                                                Sparkは、オペレーションの連鎖において特に大きな利点があります。Catalyst クエリー オプティマイザーは、フィルタを認識してデータを賢くスキップし、ディスクベースの結合を適用できますが、pandas はステップごとにすべてのデータをメモリにロードする傾向があります。

                                                                                                                                                2つのフィルター処理されたフレームを結合し、結合されたフレームの平均をコンピュートするクエリーを考えてみましょう。pandas API on Spark は 4.5 秒以内に成功しますが、pandas は以下のように OOM (メモリ不足) エラーが原因で失敗します:

                                                                                                                                                pandas の連鎖操作が OOM を引き起こす例
                                                                                                                                                pandas: 連鎖操作によるメモリ不足

                                                                                                                                                インタラクティブなデータ可視化

                                                                                                                                                pandas はデフォルトで matplotlib を使用し、静的なプロット チャートを提供します。たとえば、以下のコードは静的なグラフを生成します。

                                                                                                                                                対照的に、pandas API on Spark はデフォルトで plotly バックエンドを使用し、インタラクティブなグラフを提供します。例えば、ユーザーはインタラクティブにズームイン、ズームアウトができます。pandas API on Spark は、プロットの種類に基づいて、インタラクティブなグラフを生成する際に内部で計算を実行する最適な方法を自動的に決定します。

                                                                                                                                                Spark の unified analytics 機能を活用する

                                                                                                                                                pandas はバッチ処理を伴う Python データサイエンス向けに設計されていますが、Spark は SQL、ストリーミング処理、機械学習などの unified analytics 向けに設計されています。両者のギャップを埋めるために、pandas API on Spark は、上級ユーザーが Spark エンジンを活用するためのさまざまな方法を提供しています。次に例を示します。

                                                                                                                                                • 以下に示すように、ユーザーは Spark の最適化された SQL エンジンを使用して、SQL でデータを直接クエリーできます。
                                                                                                                                                • また、Python オブジェクトと自然にやり取りするための文字列補間構文もサポートしています。
                                                                                                                                                • pandas API on Sparkはストリーミング処理もサポートしています:
                                                                                                                                                • ユーザーは、Spark のスケーラブルな機械学習ライブラリを簡単に呼び出すことができます:

                                                                                                                                                PySpark と pandas API on Spark の間の相互運用性に関するブログ記事もご覧ください。

                                                                                                                                                次のステップ

                                                                                                                                                次期 Spark リリースのロードマップでは、以下に焦点を当てています。

                                                                                                                                                • 型ヒントの追加
                                                                                                                                                Spark 上の pandas API のコードは現在部分的に型付けされていますが、それでも静的解析と自動補完は可能です。将来的には、すべてのコードが完全に型付けされる予定です。

                                                                                                                                                • パフォーマンスの向上
                                                                                                                                                Spark 上の pandas API には、エンジンや SQL オプティマイザとより密接に連携することで、パフォーマンスをさらに向上できる点がいくつかあります。

                                                                                                                                                • 安定化
                                                                                                                                                特に NaN や NA などの欠損値には、動作が異なるコーナーケースがあり、修正すべき点がいくつかあります。

                                                                                                                                                さらに、このような場合、Spark 上の pandas API は pandas の最新バージョンにその動作を合わせます。

                                                                                                                                                • API カバレッジの拡大
                                                                                                                                                Spark 上の pandas API は pandas API の 83% のカバレッジを達成しており、この数値は増加し続けています。現在の目標は 90% です。

                                                                                                                                                バグや不足している機能がございましたら、issue を登録してください。また、コミュニティからのコントリビューションもいつでも歓迎しています。

                                                                                                                                                まずはここから

                                                                                                                                                クラスタ作成時に Databricks ランタイムのバージョンを選択できます。
                                                                                                                                                Databricks Runtime 10.0

                                                                                                                                                Databricks Runtime 10.0 Beta(次期 Apache Spark 3.2)で pandas API on Spark をお試しになりたい場合は、Databricks Community Edition または Databricks Trial に無料でサインアップして、数分で利用を開始してください。

                                                                                                                                                 

                                                                                                                                                (このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事

                                                                                                                                                最新の投稿を通知します

                                                                                                                                                関連記事

                                                                                                                                                pandas-api-blog-og

                                                                                                                                                オープンソース

                                                                                                                                                October 4, 2021/2分で読めます

                                                                                                                                                Pandas API on Upcoming Apache Spark™ 3.2

                                                                                                                                                この投稿を共有する

                                                                                                                                                Databricksの投稿を見逃さないようにしましょう

                                                                                                                                                興味のあるカテゴリを購読して、最新の投稿を受信トレイに届けましょう

                                                                                                                                                Sign up

                                                                                                                                                次は何ですか?

                                                                                                                                                turbocharging gpu inference logically

                                                                                                                                                ソリューション

                                                                                                                                                October 22, 2024/1分未満

                                                                                                                                                Logically AIでGPU推論をターボチャージ!

                                                                                                                                                Aimpoint Digital Blog

                                                                                                                                                データサイエンス・ML

                                                                                                                                                October 30, 2024/1分未満

                                                                                                                                                Aimpoint Digital:Databricksにおける安全で効率的なマルチリージョンモデル提供のためのDelta Sharingの活用

                                                                                                                                                databricks logo
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                • エグゼクティブ向け
                                                                                                                                                • スタートアップ向け
                                                                                                                                                • レイクハウスアーキテクチャ
                                                                                                                                                • Mosaic Research
                                                                                                                                                導入事例
                                                                                                                                                • 注目の導入事例
                                                                                                                                                パートナー
                                                                                                                                                • クラウドプロバイダ
                                                                                                                                                • 技術パートナー
                                                                                                                                                • データパートナー
                                                                                                                                                • Databricks で構築
                                                                                                                                                • コンサルティング・SI
                                                                                                                                                • C&SI パートナー
                                                                                                                                                • パートナーソリューション
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                • エグゼクティブ向け
                                                                                                                                                • スタートアップ向け
                                                                                                                                                • レイクハウスアーキテクチャ
                                                                                                                                                • Mosaic Research
                                                                                                                                                導入事例
                                                                                                                                                • 注目の導入事例
                                                                                                                                                パートナー
                                                                                                                                                • クラウドプロバイダ
                                                                                                                                                • 技術パートナー
                                                                                                                                                • データパートナー
                                                                                                                                                • Databricks で構築
                                                                                                                                                • コンサルティング・SI
                                                                                                                                                • C&SI パートナー
                                                                                                                                                • パートナーソリューション
                                                                                                                                                製品
                                                                                                                                                レイクハウスプラットフォーム
                                                                                                                                                • プラットフォーム
                                                                                                                                                • 共有
                                                                                                                                                • データガバナンス
                                                                                                                                                • 人工知能(AI)
                                                                                                                                                • BI
                                                                                                                                                • データベース
                                                                                                                                                • データ管理
                                                                                                                                                • データウェアハウス
                                                                                                                                                • データエンジニアリング
                                                                                                                                                • データサイエンス
                                                                                                                                                • アプリケーション開発
                                                                                                                                                ご利用料金
                                                                                                                                                • 料金設定の概要
                                                                                                                                                • 料金計算ツール
                                                                                                                                                オープンソース
                                                                                                                                                統合とデータ
                                                                                                                                                • マーケットプレイス
                                                                                                                                                • IDE 統合
                                                                                                                                                • パートナーコネクト
                                                                                                                                                レイクハウスプラットフォーム
                                                                                                                                                • プラットフォーム
                                                                                                                                                • 共有
                                                                                                                                                • データガバナンス
                                                                                                                                                • 人工知能(AI)
                                                                                                                                                • BI
                                                                                                                                                • データベース
                                                                                                                                                • データ管理
                                                                                                                                                • データウェアハウス
                                                                                                                                                • データエンジニアリング
                                                                                                                                                • データサイエンス
                                                                                                                                                • アプリケーション開発
                                                                                                                                                ご利用料金
                                                                                                                                                • 料金設定の概要
                                                                                                                                                • 料金計算ツール
                                                                                                                                                統合とデータ
                                                                                                                                                • マーケットプレイス
                                                                                                                                                • IDE 統合
                                                                                                                                                • パートナーコネクト
                                                                                                                                                ソリューション
                                                                                                                                                業種別
                                                                                                                                                • 通信
                                                                                                                                                • 金融サービス
                                                                                                                                                • 医療・ライフサイエンス
                                                                                                                                                • 製造
                                                                                                                                                • メディア・エンタメ
                                                                                                                                                • 官公庁・公共機関
                                                                                                                                                • リテール・消費財
                                                                                                                                                • 全て表示
                                                                                                                                                クロスインダストリーソリューション
                                                                                                                                                • サイバーセキュリティ
                                                                                                                                                • マーケティング
                                                                                                                                                データの移行
                                                                                                                                                プロフェッショナルサービス
                                                                                                                                                ソリューションアクセラレータ
                                                                                                                                                業種別
                                                                                                                                                • 通信
                                                                                                                                                • 金融サービス
                                                                                                                                                • 医療・ライフサイエンス
                                                                                                                                                • 製造
                                                                                                                                                • メディア・エンタメ
                                                                                                                                                • 官公庁・公共機関
                                                                                                                                                • リテール・消費財
                                                                                                                                                • 全て表示
                                                                                                                                                クロスインダストリーソリューション
                                                                                                                                                • サイバーセキュリティ
                                                                                                                                                • マーケティング
                                                                                                                                                リソース
                                                                                                                                                ドキュメント
                                                                                                                                                カスタマーサポート
                                                                                                                                                コミュニティ
                                                                                                                                                トレーニング・認定試験
                                                                                                                                                • トレーニング
                                                                                                                                                • 認定
                                                                                                                                                • 無料版
                                                                                                                                                • 大学との連携
                                                                                                                                                • Databricks アカデミー
                                                                                                                                                イベント
                                                                                                                                                • DATA+AI サミット
                                                                                                                                                • Data+AI ワールドツアー
                                                                                                                                                • AI Days
                                                                                                                                                • イベントカレンダー
                                                                                                                                                ブログ・ポッドキャスト
                                                                                                                                                • Databricks ブログ
                                                                                                                                                • Databricks Mosaic AIリサーチブログ
                                                                                                                                                • Data Brew ポッドキャスト
                                                                                                                                                • Data+AI のチャンピオンシリーズ
                                                                                                                                                トレーニング・認定試験
                                                                                                                                                • トレーニング
                                                                                                                                                • 認定
                                                                                                                                                • 無料版
                                                                                                                                                • 大学との連携
                                                                                                                                                • Databricks アカデミー
                                                                                                                                                イベント
                                                                                                                                                • DATA+AI サミット
                                                                                                                                                • Data+AI ワールドツアー
                                                                                                                                                • AI Days
                                                                                                                                                • イベントカレンダー
                                                                                                                                                ブログ・ポッドキャスト
                                                                                                                                                • Databricks ブログ
                                                                                                                                                • Databricks Mosaic AIリサーチブログ
                                                                                                                                                • Data Brew ポッドキャスト
                                                                                                                                                • Data+AI のチャンピオンシリーズ
                                                                                                                                                企業情報
                                                                                                                                                企業概要
                                                                                                                                                • Databricks について
                                                                                                                                                • 経営陣
                                                                                                                                                • Databricks Ventures
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                • 求人情報
                                                                                                                                                プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                • 受賞歴と業界評価
                                                                                                                                                セキュリティと信頼
                                                                                                                                                企業概要
                                                                                                                                                • Databricks について
                                                                                                                                                • 経営陣
                                                                                                                                                • Databricks Ventures
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                • 求人情報
                                                                                                                                                プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                • 受賞歴と業界評価
                                                                                                                                                databricks logo

                                                                                                                                                Databricks Inc.
                                                                                                                                                160 Spear Street, 15th Floor
                                                                                                                                                San Francisco, CA 94105
                                                                                                                                                1-866-330-0121

                                                                                                                                                採用情報

                                                                                                                                                © Databricks 2026. All rights reserved. Apache, Apache Spark, Spark and the Spark logo are trademarks of the Apache Software Foundation.

                                                                                                                                                • プライバシー通知
                                                                                                                                                • |利用規約
                                                                                                                                                • |現代奴隷法に関する声明
                                                                                                                                                • |カリフォルニア州のプライバシー権利
                                                                                                                                                • |プライバシー設定