メインコンテンツへジャンプ
ログイン
      • Databricks を知る
        • エグゼクティブ向け
          • スタートアップ向け
            • レイクハウスアーキテクチャ
              • Mosaic Research
              • 導入事例
                • 注目の導入事例
                • パートナー
                  • クラウドプロバイダ
                    Databricks on AWS、Azure、GCP
                    • コンサルティング・SI
                      Databricks の構築・デプロイ、Databricks への移行のエキスパート
                      • 技術パートナー
                        既存のツールをレイクハウスに接続
                        • C&SI パートナー
                          レイクハウスの構築・デプロイメント、レイクハウスへの移行
                          • データパートナー
                            データコンシューマーのエコシステムにアクセス
                            • パートナーソリューション
                              業界・移行のニーズに応じたカスタムソリューション
                              • Databricks で構築
                                ビジネスの創造・マーケティング・成長
                              • Databricks プラットフォーム
                                • プラットフォームの概要
                                  データ・分析・AI のための統合プラットフォーム
                                  • データ管理
                                    データの信頼性・セキュリティ・パフォーマンス
                                    • 共有
                                      オープン、セキュア、ゼロコピーでのデータ共有
                                      • データウェアハウジング
                                        バッチ、ストリーミングデータのための ETL とオーケストレーション
                                        • ガバナンス
                                          データ・分析・AI のための統合ガバナンス
                                          • データエンジニアリング
                                            バッチ、ストリーミングデータのための ETL とオーケストレーション
                                            • 人工知能(AI)
                                              ML と生成 AI アプリケーションの構築とデプロイメント
                                              • データサイエンス
                                                データサイエンスの大規模な連携
                                                • BI
                                                  実世界データのインテリジェント分析
                                                  • アプリケーション開発
                                                    安全なデータと AI アプリを迅速に構築
                                                    • データベース
                                                      データアプリとAIエージェントのための Postgres
                                                    • 統合とデータ
                                                      • マーケットプレイス
                                                        データ、分析、AI のためのオープンマーケットプレイス
                                                        • IDE 統合
                                                          お気に入りの IDE(統合開発環境)でレイクハウスを構築
                                                          • パートナーコネクト
                                                            Databricks エコシステムの検索と統合
                                                          • ご利用料金
                                                            • Databricks のご利用料金
                                                              料金設定、DBU、その他
                                                              • コスト計算ツール
                                                                クラウド利用でのコンピュートコストの試算
                                                              • オープンソース
                                                                • オープンソーステクノロジー
                                                                  プラットフォームを支えるイノベーションをもっと詳しく
                                                                • 業界向け Databricks
                                                                  • 通信
                                                                    • メディア・エンターテイメント
                                                                      • 金融サービス
                                                                        • 官公庁・公共機関
                                                                          • 医療・ライフサイエンス
                                                                            • リテール・消費財
                                                                              • 製造
                                                                                • 全て見る
                                                                                • クロスインダストリーソリューション
                                                                                  • AI Agents
                                                                                    • サイバーセキュリティ
                                                                                      • マーケティング
                                                                                      • 移行・デプロイメント
                                                                                        • データの移行
                                                                                          • プロフェッショナルサービス
                                                                                          • ソリューションアクセラレータ
                                                                                            • ソリューションアクセラレータ一覧
                                                                                              成果を加速
                                                                                            • トレーニング・認定試験
                                                                                              • トレーニング概要
                                                                                                ニーズに合わせたカリキュラムを探す
                                                                                                • Databricks アカデミー
                                                                                                  Databricks ラーニングプラットフォームにサインインする
                                                                                                  • 認定
                                                                                                    スキル・認定で差別化を図る
                                                                                                    • 無料版
                                                                                                      専門家向けデータとAIツールを無料で学べます
                                                                                                      • 大学との連携
                                                                                                        Databricks を教材として活用
                                                                                                      • イベント
                                                                                                        • DATA+AI サミット
                                                                                                          • Data+AI ワールドツアー
                                                                                                            • Data Intelligence Days
                                                                                                              • イベントカレンダー
                                                                                                              • ブログ・ポッドキャスト
                                                                                                                • Databricks ブログ
                                                                                                                  最新情報、製品発表、その他の情報
                                                                                                                  • Databricks Mosaic AIリサーチブログ
                                                                                                                    AI世代に関する最新リサーチ
                                                                                                                    • Data Brew ポッドキャスト
                                                                                                                      ご相談・お問い合わせ
                                                                                                                      • ポッドキャスト:Data+AI のチャンピオン
                                                                                                                        イノベーションを支えるデータリーダーのインサイト
                                                                                                                      • お役立ちリソース
                                                                                                                        • カスタマーサポート
                                                                                                                          • ドキュメント
                                                                                                                            • コミュニティ
                                                                                                                            • もっと詳しく
                                                                                                                              • リソースセンター
                                                                                                                                • デモセンター
                                                                                                                                  • アーキテクチャ センター
                                                                                                                                  • 企業概要
                                                                                                                                    • Databricks について
                                                                                                                                      • 経営陣
                                                                                                                                        • Databricks Ventures
                                                                                                                                          • ご相談・お問い合わせ
                                                                                                                                          • 採用情報
                                                                                                                                            • 採用情報概要
                                                                                                                                              • 求人情報
                                                                                                                                              • プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                  • 受賞歴と業界評価
                                                                                                                                                  • セキュリティと信頼
                                                                                                                                                    • セキュリティと信頼
                                                                                                                                                • 是非ご検討ください!
                                                                                                                                                • デモを見る
                                                                                                                                                • ログイン
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                • Databricks 無料トライアル
                                                                                                                                                1. ブログ
                                                                                                                                                2. /
                                                                                                                                                  データエンジニアリング
                                                                                                                                                3. /
                                                                                                                                                  記事

                                                                                                                                                Spark ConnectにおけるPythonの依存関係の管理方法

                                                                                                                                                Python Dependency Management in Spark Connect

                                                                                                                                                Published: November 13, 2023

                                                                                                                                                データエンジニアリング1分未満

                                                                                                                                                Hyukjin Kwon、鄭瑞峰 による投稿

                                                                                                                                                この投稿を共有する

                                                                                                                                                最新の投稿を通知します

                                                                                                                                                分散コンピューティング環境におけるアプリケーションの環境管理は難しい。 すべてのノードがコードを実行するのに必要な環境を持っていることを保証し、ユーザーのコードの実際の場所を決定することは、複雑なタスクである。 Apache Spark™は、Conda、venv、PEXなど様々な方法を提供している。 --jars、--packagesの ようなスクリプトオプションや、 spark.jars.*の ようなSparkコンフィギュレーションをサブミットする方法と 同様に、 PySparkでPythonの依存関係を管理する方法も併せて参照してみてください。これらのオプションにより、ユーザーはクラスタ内の依存関係をシームレスに処理できる。

                                                                                                                                                しかし、Apache Sparkの依存関係を管理するための現在のサポートには限界がある。 依存関係は静的にしか追加できず、実行中に変更することはできない。 つまり、Driverを起動する前に必ず依存関係を設定する必要がある。 この問題に対処するため、Apache Spark 3.5.0からSpark Connectにセッションベースの依存関係管理サポートを導入した。 この新機能により、実行時にPythonの依存関係を動的に更新することができる。 このブログポストでは、Apache SparkのSpark Connectを使って実行時にPythonの依存関係を制御する包括的なアプローチについて説明する。

                                                                                                                                                Spark Connectのセッションベースの成果物

                                                                                                                                                スパーク・コンテキスト
                                                                                                                                                One environment for each Spark Context

                                                                                                                                                Spark Connectを使用せずにSpark Driverを使用する場合、Spark Contextがアーカイブ(ユーザー環境)を追加し、後にノード上で自動的に解凍され、すべてのノードがジョブを実行するために必要な依存関係を持っていることが保証される。 この機能により、分散コンピューティング環境における依存関係の管理が簡素化され、環境汚染のリスクを最小限に抑え、すべてのノードが意図した実行環境を確保できる。 しかし、これはSpark ContextとDriverを起動する前に静的に一度だけ設定することができ、柔軟性が制限される。

                                                                                                                                                スパーク・セッション
                                                                                                                                                Separate environment for each Spark Session

                                                                                                                                                Spark Connectでは、コネクトサーバーの寿命が長くなり、複数のセッションやクライアント(それぞれが独自のPythonバージョン、依存関係、環境を持つ)が存在する可能性があるため、依存関係の管理がより複雑になる。 提案する解決策は、セッションベースのアーカイブを導入することである。 このアプローチでは、各セッションは専用のディレクトリを持ち、そこに関連するすべてのPythonファイルとアーカイブが保存される。 Pythonワーカーが起動すると、カレント作業ディレクトリはこの専用ディレクトリに設定される。 これによって、各セッションが特定の依存関係と環境のセットにアクセスできることが保証され、潜在的な競合が効果的に緩和される。

                                                                                                                                                Condaの使用

                                                                                                                                                Condaは、多くの人に利用されているPythonパッケージ管理システムだ。 PySparkユーザーはConda環境を直接活用して、サードパーティのPythonパッケージをパッケージ化できる。 これは、再配置可能なConda環境を作成するために設計されたライブラリであるconda-packを活用することで実現できる。

                                                                                                                                                次の例は、セッションベースの依存関係管理を可能にするために、後でドライバとエクゼキュータの両方でアンパックされる、パックされたConda環境の作成を示している。 この環境は、Pythonインタプリタと関連するすべての依存関係をキャプチャして、アーカイブファイルにパックされる。

                                                                                                                                                PEXの使用

                                                                                                                                                Spark ConnectはPEXを使ってPythonパッケージをバンドルすることをサポートしている。 PEXは、自己完結型のPython環境を生成するツールである。 Condaやvirtualenvと同様の機能を持つが、.pexファイルはそれ自体が実行可能ファイルである。

                                                                                                                                                次の例では、.pexファイルは、ドライバとエクゼキュータの両方が各セッションで使用するために作成される。 このファイルには、pexコマンドで提供される指定されたPython依存性が組み込まれる。

                                                                                                                                                .pexファイルを作成した後、セッションが分離された.pexファイルを使用するように、セッションベースの環境にそれらを送ることができる。

                                                                                                                                                Virtualenvの使用

                                                                                                                                                Virtualenvは、隔離されたPython環境を作成するためのPythonツールである。 Python 3.3.0から、 その機能のサブセットは、venvモジュールの下で標準ライブラリとしてPythonに統合されている。 venvモジュールは、conda-packと同様の方法でvenv-packを使うことで、Pythonの依存関係に活用できる。 以下の例は、venvによるセッションベースの依存関係管理を示している。

                                                                                                                                                まとめ

                                                                                                                                                Apache Sparkは、Apache Spark 3.5.0において、実行時に動的にSpark ConnectによるPython依存関係の送信と管理を容易にするために、Conda、virtualenv、PEXを含む複数のオプションを提供している、 これは静的なPythonの依存関係管理の限界を克服するものです。

                                                                                                                                                Databricksノートブックの場合、この問題に対処するために、Pythonの依存関係のためのユーザーフレンドリーなインターフェイスを備えた、よりエレガントなソリューションを提供します。 さらに、ユーザーはPythonの依存関係管理のためにpipとCondaを直接利用することができる。 Databricksの無料トライアルで、これらの機能を今すぐご利用ください。

                                                                                                                                                最新の投稿を通知します

                                                                                                                                                関連記事

                                                                                                                                                Introducing Apache Spark™ 3.5

                                                                                                                                                オープンソース

                                                                                                                                                September 14, 2023/4分で読めます

                                                                                                                                                Apache Spark™ 3.5のご紹介

                                                                                                                                                この投稿を共有する

                                                                                                                                                Databricksの投稿を見逃さないようにしましょう

                                                                                                                                                興味のあるカテゴリを購読して、最新の投稿を受信トレイに届けましょう

                                                                                                                                                Sign up

                                                                                                                                                次は何ですか?

                                                                                                                                                Booting Databricks VMs 7x Faster for Serverless Compute

                                                                                                                                                データエンジニアリング

                                                                                                                                                November 25, 2024/1分未満

                                                                                                                                                DatabricksのサーバーレスコンピュートでVM起動を7倍高速化

                                                                                                                                                header image reads: How to Read Unity Catalog Tables in Snowflake, in 4 easy steps

                                                                                                                                                データエンジニアリング

                                                                                                                                                December 9, 2024/3分で読めます

                                                                                                                                                SnowflakeでUnityカタログテーブルを読み取るには!?たった4ステップ!

                                                                                                                                                databricks logo
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                • エグゼクティブ向け
                                                                                                                                                • スタートアップ向け
                                                                                                                                                • レイクハウスアーキテクチャ
                                                                                                                                                • Mosaic Research
                                                                                                                                                導入事例
                                                                                                                                                • 注目の導入事例
                                                                                                                                                パートナー
                                                                                                                                                • クラウドプロバイダ
                                                                                                                                                • 技術パートナー
                                                                                                                                                • データパートナー
                                                                                                                                                • Databricks で構築
                                                                                                                                                • コンサルティング・SI
                                                                                                                                                • C&SI パートナー
                                                                                                                                                • パートナーソリューション
                                                                                                                                                Databricks を選ぶ理由
                                                                                                                                                • エグゼクティブ向け
                                                                                                                                                • スタートアップ向け
                                                                                                                                                • レイクハウスアーキテクチャ
                                                                                                                                                • Mosaic Research
                                                                                                                                                導入事例
                                                                                                                                                • 注目の導入事例
                                                                                                                                                パートナー
                                                                                                                                                • クラウドプロバイダ
                                                                                                                                                • 技術パートナー
                                                                                                                                                • データパートナー
                                                                                                                                                • Databricks で構築
                                                                                                                                                • コンサルティング・SI
                                                                                                                                                • C&SI パートナー
                                                                                                                                                • パートナーソリューション
                                                                                                                                                製品
                                                                                                                                                レイクハウスプラットフォーム
                                                                                                                                                • プラットフォーム
                                                                                                                                                • 共有
                                                                                                                                                • データガバナンス
                                                                                                                                                • 人工知能(AI)
                                                                                                                                                • DBRX
                                                                                                                                                • データベース
                                                                                                                                                • データ管理
                                                                                                                                                • データウェアハウス
                                                                                                                                                • データエンジニアリング
                                                                                                                                                • データサイエンス
                                                                                                                                                • アプリケーション開発
                                                                                                                                                ご利用料金
                                                                                                                                                • 料金設定の概要
                                                                                                                                                • 料金計算ツール
                                                                                                                                                オープンソース
                                                                                                                                                統合とデータ
                                                                                                                                                • マーケットプレイス
                                                                                                                                                • IDE 統合
                                                                                                                                                • パートナーコネクト
                                                                                                                                                レイクハウスプラットフォーム
                                                                                                                                                • プラットフォーム
                                                                                                                                                • 共有
                                                                                                                                                • データガバナンス
                                                                                                                                                • 人工知能(AI)
                                                                                                                                                • DBRX
                                                                                                                                                • データベース
                                                                                                                                                • データ管理
                                                                                                                                                • データウェアハウス
                                                                                                                                                • データエンジニアリング
                                                                                                                                                • データサイエンス
                                                                                                                                                • アプリケーション開発
                                                                                                                                                ご利用料金
                                                                                                                                                • 料金設定の概要
                                                                                                                                                • 料金計算ツール
                                                                                                                                                統合とデータ
                                                                                                                                                • マーケットプレイス
                                                                                                                                                • IDE 統合
                                                                                                                                                • パートナーコネクト
                                                                                                                                                ソリューション
                                                                                                                                                業種別
                                                                                                                                                • 通信
                                                                                                                                                • 金融サービス
                                                                                                                                                • 医療・ライフサイエンス
                                                                                                                                                • 製造
                                                                                                                                                • メディア・エンタメ
                                                                                                                                                • 官公庁・公共機関
                                                                                                                                                • リテール・消費財
                                                                                                                                                • 全て表示
                                                                                                                                                クロスインダストリーソリューション
                                                                                                                                                • サイバーセキュリティ
                                                                                                                                                • マーケティング
                                                                                                                                                データの移行
                                                                                                                                                プロフェッショナルサービス
                                                                                                                                                ソリューションアクセラレータ
                                                                                                                                                業種別
                                                                                                                                                • 通信
                                                                                                                                                • 金融サービス
                                                                                                                                                • 医療・ライフサイエンス
                                                                                                                                                • 製造
                                                                                                                                                • メディア・エンタメ
                                                                                                                                                • 官公庁・公共機関
                                                                                                                                                • リテール・消費財
                                                                                                                                                • 全て表示
                                                                                                                                                クロスインダストリーソリューション
                                                                                                                                                • サイバーセキュリティ
                                                                                                                                                • マーケティング
                                                                                                                                                リソース
                                                                                                                                                ドキュメント
                                                                                                                                                カスタマーサポート
                                                                                                                                                コミュニティ
                                                                                                                                                トレーニング・認定試験
                                                                                                                                                • トレーニング
                                                                                                                                                • 認定
                                                                                                                                                • 無料版
                                                                                                                                                • 大学との連携
                                                                                                                                                • Databricks アカデミー
                                                                                                                                                イベント
                                                                                                                                                • DATA+AI サミット
                                                                                                                                                • Data+AI ワールドツアー
                                                                                                                                                • Data Intelligence Days
                                                                                                                                                • イベントカレンダー
                                                                                                                                                ブログ・ポッドキャスト
                                                                                                                                                • Databricks ブログ
                                                                                                                                                • Databricks Mosaic AIリサーチブログ
                                                                                                                                                • Data Brew ポッドキャスト
                                                                                                                                                • Data+AI のチャンピオンシリーズ
                                                                                                                                                トレーニング・認定試験
                                                                                                                                                • トレーニング
                                                                                                                                                • 認定
                                                                                                                                                • 無料版
                                                                                                                                                • 大学との連携
                                                                                                                                                • Databricks アカデミー
                                                                                                                                                イベント
                                                                                                                                                • DATA+AI サミット
                                                                                                                                                • Data+AI ワールドツアー
                                                                                                                                                • Data Intelligence Days
                                                                                                                                                • イベントカレンダー
                                                                                                                                                ブログ・ポッドキャスト
                                                                                                                                                • Databricks ブログ
                                                                                                                                                • Databricks Mosaic AIリサーチブログ
                                                                                                                                                • Data Brew ポッドキャスト
                                                                                                                                                • Data+AI のチャンピオンシリーズ
                                                                                                                                                企業情報
                                                                                                                                                企業概要
                                                                                                                                                • Databricks について
                                                                                                                                                • 経営陣
                                                                                                                                                • Databricks Ventures
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                • 求人情報
                                                                                                                                                プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                • 受賞歴と業界評価
                                                                                                                                                セキュリティと信頼
                                                                                                                                                企業概要
                                                                                                                                                • Databricks について
                                                                                                                                                • 経営陣
                                                                                                                                                • Databricks Ventures
                                                                                                                                                • ご相談・お問い合わせ
                                                                                                                                                採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                • 求人情報
                                                                                                                                                プレス・ニュース記事
                                                                                                                                                • ニュースルーム
                                                                                                                                                • 受賞歴と業界評価
                                                                                                                                                databricks logo

                                                                                                                                                Databricks Inc.
                                                                                                                                                160 Spear Street, 15th Floor
                                                                                                                                                San Francisco, CA 94105
                                                                                                                                                1-866-330-0121

                                                                                                                                                採用情報

                                                                                                                                                © Databricks 2025. All rights reserved. Apache, Apache Spark, Spark and the Spark logo are trademarks of the Apache Software Foundation.

                                                                                                                                                • プライバシー通知
                                                                                                                                                • |利用規約
                                                                                                                                                • |現代奴隷法に関する声明
                                                                                                                                                • |カリフォルニア州のプライバシー権利
                                                                                                                                                • |プライバシー設定