メインコンテンツへジャンプ
ログイン
      • Databricks を知る
        • For App Developers
          • エグゼクティブ向け
            • スタートアップ向け
              • レイクハウスアーキテクチャ
                • Databricks AIリサーチ
                • 導入事例
                  • 注目の導入事例
                  • パートナー
                    • パートナー概要
                      Databricks パートナー エコシステムの詳細
                      • パートナースポットライト
                        注目のパートナーの発表
                        • パートナープログラム
                          特典、レベル、パートナーになる方法をご覧ください
                          • クラウドプロバイダー
                            AWS、Azure、GCP 上の Databricks
                            • パートナーを探す
                              ニーズに合った Databricks パートナーを見つける
                              • パートナーソリューション
                                業界別および移行ソリューションを見つける
                              • Databricks プラットフォーム
                                • プラットフォームの概要
                                  データ・分析・AI のための統合プラットフォーム
                                  • データ管理
                                    データの信頼性・セキュリティ・パフォーマンス
                                    • 共有
                                      オープン、セキュア、ゼロコピーでのデータ共有
                                      • データウェアハウジング
                                        バッチ、ストリーミングデータのための ETL とオーケストレーション
                                        • ガバナンス
                                          データ・分析・AI のための統合ガバナンス
                                          • データエンジニアリング
                                            バッチ、ストリーミングデータのための ETL とオーケストレーション
                                            • 人工知能(AI)
                                              ML と生成 AI アプリケーションの構築とデプロイメント
                                              • データサイエンス
                                                データサイエンスの大規模な連携
                                                • BI
                                                  実世界データのインテリジェント分析
                                                  • アプリケーション開発
                                                    安全なデータと AI アプリを迅速に構築
                                                    • Database
                                                      Postgres for data apps and AI agents
                                                      • セキュリティ
                                                        AI時代のために構築されたオープンなエージェント型SIEM
                                                      • 統合とデータ
                                                        • マーケットプレイス
                                                          データ、分析、AI のためのオープンマーケットプレイス
                                                          • IDE 統合
                                                            お気に入りの IDE(統合開発環境)でレイクハウスを構築
                                                            • パートナーコネクト
                                                              Databricks エコシステムの検索と統合
                                                            • ご利用料金
                                                              • Databricks のご利用料金
                                                                料金設定、DBU、その他
                                                                • コスト計算ツール
                                                                  クラウド利用でのコンピュートコストの試算
                                                                • オープンソース
                                                                  • オープンソーステクノロジー
                                                                    プラットフォームを支えるイノベーションをもっと詳しく
                                                                  • 業界向け Databricks
                                                                    • 通信
                                                                      • メディア・エンターテイメント
                                                                        • 金融サービス
                                                                          • 官公庁・公共機関
                                                                            • 医療・ライフサイエンス
                                                                              • リテール・消費財
                                                                                • 製造
                                                                                  • 全て見る
                                                                                  • クロスインダストリーソリューション
                                                                                    • AI Agents
                                                                                      • AI ガバナンス
                                                                                        • サイバーセキュリティ
                                                                                          • マーケティング
                                                                                          • 移行・デプロイメント
                                                                                            • データの移行
                                                                                              • プロフェッショナルサービス
                                                                                              • ソリューションアクセラレータ
                                                                                                • ソリューションアクセラレータ一覧
                                                                                                  成果を加速
                                                                                                • トレーニング・認定試験
                                                                                                  • トレーニング概要
                                                                                                    ニーズに合わせたカリキュラムを探す
                                                                                                    • Databricks アカデミー
                                                                                                      Databricks ラーニングプラットフォームにサインインする
                                                                                                      • 認定
                                                                                                        スキル・認定で差別化を図る
                                                                                                        • 無料版
                                                                                                          専門家向けデータとAIツールを無料で学べます
                                                                                                          • 大学との連携
                                                                                                            Databricks を教材として活用
                                                                                                          • イベント
                                                                                                            • DATA+AI サミット
                                                                                                              • Data+AI ワールドツアー
                                                                                                                • AI Days
                                                                                                                  • イベントカレンダー
                                                                                                                  • ブログ・ポッドキャスト
                                                                                                                    • Databricks ブログ
                                                                                                                      最新情報、製品発表、その他の情報
                                                                                                                      • AI ブログ
                                                                                                                        当社のAI研究とエンジニアリングの取り組みをご覧ください
                                                                                                                        • Data Brew ポッドキャスト
                                                                                                                          ご相談・お問い合わせ
                                                                                                                          • ポッドキャスト:Data+AI のチャンピオン
                                                                                                                            イノベーションを支えるデータリーダーのインサイト
                                                                                                                          • お役立ちリソース
                                                                                                                            • カスタマーサポート
                                                                                                                              • ドキュメント
                                                                                                                                • コミュニティ
                                                                                                                                • もっと詳しく
                                                                                                                                  • リソースセンター
                                                                                                                                    • デモセンター
                                                                                                                                      • アーキテクチャ センター
                                                                                                                                      • 企業概要
                                                                                                                                        • Databricks について
                                                                                                                                          • 経営陣
                                                                                                                                            • Databricks Ventures
                                                                                                                                              • ご相談・お問い合わせ
                                                                                                                                              • 採用情報
                                                                                                                                                • 採用情報概要
                                                                                                                                                  • 求人情報
                                                                                                                                                  • プレス・ニュース記事
                                                                                                                                                    • ニュースルーム
                                                                                                                                                      • 受賞歴と業界評価
                                                                                                                                                      • セキュリティと信頼
                                                                                                                                                        • セキュリティと信頼
                                                                                                                                                    • 是非ご検討ください!
                                                                                                                                                    • デモを見る
                                                                                                                                                    • ログイン
                                                                                                                                                    • Databricks 無料トライアル
                                                                                                                                                    1. すべてのブログ
                                                                                                                                                    2. /
                                                                                                                                                      エンジニアリング
                                                                                                                                                    • モデルのバイアスか、データのバイアスか?
                                                                                                                                                    • StackOverflow アンケートデータの評価
                                                                                                                                                    • Apache Spark を使用したモデル選択
                                                                                                                                                    • xgboostモデルの解釈
                                                                                                                                                    • パッケージ SHAP を適用した開発者レベルの説明
                                                                                                                                                    • 説明可能なAI: 特徴量の全体的な効果を解明
                                                                                                                                                    • SHAP値で性別の影響を調べる
                                                                                                                                                    • SHAP を使用して性別と相互作用する特徴量を可視化する
                                                                                                                                                    • 突出したジェンダー効果を持つ事例の探求
                                                                                                                                                    • SHAP 値を使用した交互作用の説明
                                                                                                                                                    • Apache Spark を使用した SHAP の適用
                                                                                                                                                    • SHAP値のクラスタリング
                                                                                                                                                    • まとめ
                                                                                                                                                    • モデルのバイアスか、データのバイアスか?
                                                                                                                                                    • StackOverflow アンケートデータの評価
                                                                                                                                                    • Apache Spark を使用したモデル選択
                                                                                                                                                    • xgboostモデルの解釈
                                                                                                                                                    • パッケージ SHAP を適用した開発者レベルの説明
                                                                                                                                                    • 説明可能なAI: 特徴量の全体的な効果を解明
                                                                                                                                                    • SHAP値で性別の影響を調べる
                                                                                                                                                    • SHAP を使用して性別と相互作用する特徴量を可視化する
                                                                                                                                                    • 突出したジェンダー効果を持つ事例の探求
                                                                                                                                                    • SHAP 値を使用した交互作用の説明
                                                                                                                                                    • Apache Spark を使用した SHAP の適用
                                                                                                                                                    • SHAP値のクラスタリング
                                                                                                                                                    • まとめ
                                                                                                                                                    オープンソース
                                                                                                                                                    2019年6月17日

                                                                                                                                                    SHAPと機械学習を用いたデータバイアスの検出

                                                                                                                                                    機械学習とSHAPが示す、開発者の給与と男女間の賃金格差の関係

                                                                                                                                                    によって ショーン・オーウェン による投稿

                                                                                                                                                    「SHAP を使用したデータ バイアスの検出」ノートブックを試して以下のステップを再現し、オンデマンド ウェビナーを視聴して詳細をご覧ください。

                                                                                                                                                    StackOverflow の年次開発者アンケートは今年の初めに終了し、分析用に (匿名化された) 2019 年の結果がありがたいことに公開されました。これらは世界中のソフトウェア開発者の経験を深く知るための豊富な情報源です。たとえば、彼らのお気に入りのエディターは何か、といった具合に。経験年数は?タブかスペースか?そして重要なのは、給与です。ソフトウェア エンジニアの給与は高額で、時には目を見張るほどで、ニュースになることもあります。

                                                                                                                                                    テック業界もまた、自らが標榜する能力主義の理想に必ずしも沿っていないことを痛感しています。給与は純粋に能力だけで決まるものではなく、有名校出身、年齢、人種、性別といった要因が給与のような結果に影響を与えることを、多くの事例が物語っています。

                                                                                                                                                    機械学習は、物事を予測する以上のことができるのでしょうか?機械学習は給与を説明し、それらの要因が望ましくない賃金格差を引き起こしている可能性のあるケースを明らかにすることができるのでしょうか?この例では、標準的なモデルを SHAP (SHapley Additive exPlanations) で拡張して、予測に懸念がある可能性のある個々のインスタンスを検出し、さらにデータがそれらの予測につながる具体的な理由を深く掘り下げる方法を概説します。

                                                                                                                                                    モデルのバイアスか、データのバイアスか?

                                                                                                                                                    このトピックはしばしば「モデルのバイアス」の検出として特徴づけられますが、モデルはトレーニングに使用されたデータを映す鏡にすぎません。モデルに「バイアス」がある場合、それはデータの過去の事実から学習したものです。モデル自体が問題なのではなく、バイアスの証拠がないかデータを分析する機会となるのです。

                                                                                                                                                    モデルの説明は新しいものではなく、ほとんどのライブラリはモデルへの入力の相対的な重要性を評価できます。これらは入力の効果を集計したビューです。しかし、一部の機械学習モデルの出力は、非常に個人的な影響を及ぼします。あなたのローンは承認されますか?経済的援助を受けられますか?不審な旅行者ですか?

                                                                                                                                                    実際、StackOverflowは独自の調査に基づいて予想年収を推定するための便利な計算ツールを提供しています。その予測が全体としてどれほど正確かは推測するしかありませんが、開発者が特に気にするのは自分自身の将来性です。

                                                                                                                                                    問うべきなのは、「データ全体にバイアスがあるか」ということではないのかもしれません。むしろ問うべきは、「データに個々のバイアスの事例が見られるか」ということなのです。

                                                                                                                                                    StackOverflow アンケートデータの評価

                                                                                                                                                    幸い、2019年のデータはクリーンで、データの問題はありません。これには、約88,000人の開発者から寄せられた85件の質問への回答が含まれています。

                                                                                                                                                    この例は、フルタイムの開発者のみを対象としています。このデータセットには、経験年数、学歴、役職、人口統計情報など、関連情報が豊富に含まれています。注目すべきは、このデータセットにはボーナスや株式に関する情報は含まれておらず、給与のみが含まれていることです。

                                                                                                                                                    また、ブロックチェーン、Fizz Buzz、アンケート自体に対する考え方など、幅広い質問への回答も含まれています。これらは、本来であれば報酬を決定づけるべき経験やスキルを反映しているとは考えにくいため、ここでは除外されています。同様に、簡潔にするため、米国を拠点とする開発者のみに焦点を当てます。

                                                                                                                                                    モデリングの前に、データにはもう少し変換が必要です。いくつかの質問では、「開発者としての生産性に対する最大の課題は何ですか?」のように、複数の回答が可能です。これらの単一の質問からは複数の「はい/いいえ」の回答が得られるため、複数の「はい/いいえ」の特徴量に分割する必要があります。

                                                                                                                                                    「勤務先の企業や組織の従業員数は約何人ですか?」のような、多肢選択式の質問もあります。"従業員数 2~9 人"のような回答が可能です。これらは実質的にビン化された連続値であり、モデルが順序と相対的な大きさを考慮できるように、「2」のような推定される連続値にマッピングし直すと便利な場合があります。残念ながら、この翻訳は手作業で行われており、いくつかの判断が必要となります。

                                                                                                                                                    これを実現するための Apache Spark コードは、ご興味のある方向けに付属のノートブックに記載されています。

                                                                                                                                                    Apache Spark を使用したモデル選択

                                                                                                                                                    データがよりMachine Learningに適した形式になったら、次のステップは、これらの特徴量から給与を予測する回帰モデルを適合させることです。Sparkでフィルタリングと変換を行った後のデータセット自体はわずか4MBで、約12,600人の開発者から得た206個の特徴量が含まれており、サーバーはもちろん、腕時計のDataFrameとしてでもメモリに簡単に収まります。

                                                                                                                                                    人気のある勾配ブースティングツリーパッケージであるxgboostは、Spark を使わずに、1台のマシンで数分でこのデータにモデルを適合させることができます。xgboostには、モデルの品質に影響を与える、調整可能な多くの"ハイパーパラメータ"(最大深度、学習率、正則化など)が用意されています。推測するのではなく、これらの値をさまざまに設定して試し、最も精度の高いモデルになる組み合わせを選ぶのが、シンプルで標準的な方法です。

                                                                                                                                                    幸いなことに、ここで Spark が再び活躍します。Spark は、これらのモデルを何百も並行して構築し、それぞれの結果を収集できます。データセットは小さいため、ワーカーにブロードキャストし、試行するハイパーパラメータの組み合わせを多数作成した上で、Spark を使用して、ローカルでモデルを構築可能なものと同じ単純な非分散 xgboost コードを、各組み合わせのデータに適用することは簡単です。

                                                                                                                                                    これにより、多数のモデルが作成されます。結果を追跡して評価するために、mlflow を使用すると、各モデルをそのメトリクスやハイパーパラメータと共にlogし、ノートブックの エクスペリメントで表示できます。ここでは、多数のランにわたる1つのハイパーパラメータが、結果として得られる精度(平均絶対誤差)と比較されます。

                                                                                                                                                    MLflow のモデル誤差とハイパーパラメータの散布図<br />

                                                                                                                                                    ホールドアウト検証データセットで最も低い誤差を示した単一のモデルが注目されます。平均約119,000ドルの給与に対し、約28,000ドルの平均絶対誤差が生じました。悪くはありませんが、このモデルでは給与のばらつきのほとんどしか説明できないことを認識しておく必要があります。

                                                                                                                                                    xgboostモデルの解釈

                                                                                                                                                    このモデルは将来の給与を予測するために使用できますが、ここでは、モデルがデータについて何を示しているかが問題となります。給与を正確に予測する際に、最も重要だと思われる特徴量は何でしょうか?xgboost モデル自体が、特徴量の重要度という概念をコンピュートします:

                                                                                                                                                    <。/>

                                                                                                                                                    プロとしてのコーディング年数、組織の規模、Windowsの使用といった要因が最も「重要」です。これは興味深いですが、解釈は困難です。この値は、絶対的な重要性ではなく相対的な重要性を反映しています。つまり、効果はドルで測定されていません。ここでの重要性の定義(総利得)も、決定木がどのように構築されるかに固有のものであり、直感的な解釈に結びつけるのは困難です。重要な特徴量は、給与と必ずしも正の相関があるわけでもありません。

                                                                                                                                                    さらに重要なことに、これは特徴量が集約的にどの程度重要であるかを示す「グローバル」なビューです。性別や民族などの要因は、このリストでは後の方になるまで表示されません。だからといって、これらの要因が重要でないわけではありません。ひとつには、特徴量が相関したり、相互作用したりする可能性があります。性別などの要因が、ツリーが代わりに選択した他の特徴量と相関し、これがその影響をある程度覆い隠している可能性があります。

                                                                                                                                                    より興味深い問題は、これらの要因が全体として重要かどうか(その平均的な効果は比較的小さい可能性があります)ということよりも、一部の個別のケースで有意な効果があるかどうかです。これらは、モデルが個人の経験について何か重要なことを伝えているインスタンスであり、その個人にとっては、その経験こそが重要なのです。

                                                                                                                                                    パッケージ SHAP を適用した開発者レベルの説明

                                                                                                                                                    幸いなことに、個々の予測レベルで、より理論的に健全なモデル解釈を行うための一連の手法が、ここ5年ほどで登場しました。これらは総称して「Shapley Additive Explanations」(SHAP)と呼ばれ、便利なことに Python パッケージのshapに実装されています。

                                                                                                                                                    任意のモデルに対し、このライブラリはモデルから "SHAP 値" を計算します。各値は予測に対する特徴量の影響をその単位で表すため、これらの値は容易に解釈できます。ここでの SHAP 値 1000 は、"予測給与の +$1,000 を説明した" ことを意味します。SHAP 値は、相関や交互作用を切り離すことも試みる方法でコンピュートされます。

                                                                                                                                                    SHAP 値は、モデル全体ではなく、すべての入力に対してコンピュートされるため、これらの説明は各入力で個別に利用できます。予測ごとに、各特徴量の主効果とは別に、特徴量の交互作用の効果も推定できます。

                                                                                                                                                    説明可能なAI: 特徴量の全体的な効果を解明

                                                                                                                                                    開発者レベルの説明は、その絶対値を単純に平均化することで、データセット全体における給与に対する特徴量の影響の説明に集約できます。全体的に最も重要な特徴量に関する SHAP の評価は同様です。

                                                                                                                                                    絶対 SHAP 値による特徴量の重要度の評価。<br/>

                                                                                                                                                    SHAP 値は同様のストーリーを物語っています。まず、SHAP は給与への影響をドル単位で定量化できるため、結果の解釈が大幅に向上します。上記は、予測される給与に対する各特徴量の絶対的な影響を、開発者全体で平均化したプロットです。プロのコーディング経験年数が依然として最も大きな要因であり、平均して給与に約15,000ドルの影響を与えています。

                                                                                                                                                    SHAP値で性別の影響を調べる

                                                                                                                                                    ここでは、性別、人種など、それ自体が給与を予測するものであってはならないと推定されるその他の要因の影響を具体的に検討しました。この例では性別の影響を検証しますが、これは探すべきバイアスの種類として、これが唯一または最も重要であることを示唆するものでは決してありません。

                                                                                                                                                    ジェンダーは二元的ではなく、この調査では "Man"、"Woman"、"Non-binary, genderqueer, or gender non-conforming"、および "Trans" の回答を個別に認識します。(この調査ではセクシュアリティに関する回答も個別に記録していますが、ここでは考慮されないことに注意してください。)SHAP は、これらのそれぞれについて、予測される給与への影響を計算します。男性の開発者(男性としてのみ自認)の場合、ジェンダーの影響は、男性であること自体の影響だけでなく、女性やトランスジェンダーなどではないことによる影響も含まれます。

                                                                                                                                                    SHAP値を使用すると、4つのカテゴリのそれぞれに属すると認識している開発者について、これらの影響の合計を読み取ることができます。

                                                                                                                                                    予測される給与に対する性別の影響を説明する SHAP 値の例<br />

                                                                                                                                                    男性開発者の性別が約-$230から+$890(平均約$225)の控えめな影響を説明するのに対し、女性の場合、その範囲はより広く、約-$4,260から-$690(平均-$1,320)です。トランスジェンダーおよびノンバイナリーの開発者の結果も同様ですが、負の影響はわずかに小さくなっています。

                                                                                                                                                    これが以下で何を意味するかを評価する際には、ここでのデータとモデルの限界を思い出すことが重要です。

                                                                                                                                                    • 相関関係は因果関係を意味しません。予測給与の「説明」は示唆的ですが、ある特徴量が給与の増減に直接的な因果関係があることを証明するものではありません。
                                                                                                                                                    • このモデルは完全に正確というわけではありません。
                                                                                                                                                    • これはわずか 1 年分のデータで、米国の開発者からのもののみです。
                                                                                                                                                    • これは基本給のみを反映しており、より広範囲に変動する可能性のあるボーナスや株式は含まれていません。

                                                                                                                                                    SHAP を使用して性別と相互作用する特徴量を可視化する

                                                                                                                                                    SHAP ライブラリは、特徴量の相互作用の効果を分離する能力を活用した、興味深い可視化を提供します。例えば、上記の数値は、男性であると自認する開発者は他の開発者よりもわずかに高い給与を得ると予測されることを示唆していますが、背景にはもっと何かあるのでしょうか?このような依存関係プロットが役立ちます。

                                                                                                                                                    SHAP を使用して性別と相互作用する特徴量を可視化する<br />

                                                                                                                                                    「ドット」は開発者です。左側の開発者は男性であると自認していない人々で、右側は男性であると自認している人々であり、その大半は男性のみと自認している人々です。(わかりやすくするために、各点は水平方向にランダムに配置されています。)y 軸は SHAP 値です。これは、男性であるかどうかの自認が、各開発者の予測給与をどの程度説明するかを示したものです。上記のように、男性であると自認していない人々は、全体的に負の SHAP 値を示し、その値は大きくばらついていますが、それ以外の人々は一貫して小さな正の SHAP 値を示しています。

                                                                                                                                                    そのばらつきの背景には何があるのでしょうか?SHAP は、ここでは男性と自認しているかどうかの値が与えられた場合に、その効果が最も変動する 2 番目の特徴量を選択できます。 「あなたの仕事はどの程度体系化または計画されていますか?」という質問に対し、"最も重要または緊急と思われることに取り組みます" という回答が選択されます。 男性と自認している開発者の間では、このように回答した人 (赤い点) の SHAP 値がわずかに高いようです。それ以外の人々の間では、効果はよりまちまちですが、SHAP 値は全体的に低いようです。

                                                                                                                                                    解釈は読者に委ねられますが、おそらく次のようなことでしょう。この意味で権限を与えられていると感じる男性開発者は、わずかに高い給与も得ている一方で、他の開発者は、低賃金の役割と密接に関連する場合にこれを得ているのでしょうか。

                                                                                                                                                    突出したジェンダー効果を持つ事例の探求

                                                                                                                                                    給与が最もマイナスの影響を受ける開発者を調査してみましょう。性別関連の特徴量の影響を全体的に見ることができるのと同様に、性別関連の特徴量が予測給与に最も大きな影響を与えた開発者を検索することも可能です。この人物は女性であり、その影響はマイナスです。モデルによると、彼女は性別が原因で、年収が約 4,260 ドル低くなると予測されています。

                                                                                                                                                    PythonのSHAPを用いて、ある開発者1名の給与予測の根拠を可視化する<br />

                                                                                                                                                    予測された給与は157,000ドル強で、彼女が実際に報告した給与が150,000ドルであることから、このケースでは正確です。

                                                                                                                                                    予測給与に影響を与えているプラスとマイナスの特徴量トップ3は次のとおりです。

                                                                                                                                                    • 大卒(のみ)(+$18,200)
                                                                                                                                                    • 10年の職務経験あり(+9,400ドル)
                                                                                                                                                    • 東アジア系であると自認(+9,100ドル)
                                                                                                                                                    • ...
                                                                                                                                                    • 週40時間勤務 (-4,000ドル)
                                                                                                                                                    • 男性であると自認しない (-$4,250)
                                                                                                                                                    • 従業員数 100~499 人の中規模の組織に勤務(-$9,700)

                                                                                                                                                    男性でないと認識されることが予測給与に与える影響の大きさを考えると、ここで一旦立ち止まり、この開発者を取り巻く状況をより深く理解し、彼女の経験、給与、あるいはその両方に変更が必要かどうかを判断するために、このケースの詳細をオフラインで調査した方がよいかもしれません。

                                                                                                                                                    SHAP 値を使用した交互作用の説明

                                                                                                                                                    その -$4,260 の中には、より詳細な情報が含まれています。SHAP は、これらの特徴量の影響を交互作用に分解できます。予測において女性であることの総効果は、女性でありかつエンジニアリング マネージャーであることの効果、および Windows を使用していることの効果などに分解できます。

                                                                                                                                                    性別の要因それ自体によって説明される予測給与への影響は、合計で約-630ドルにしかなりません。むしろ SHAP は、性別の影響のほとんどを他の特徴量との相互作用に割り当てます:

                                                                                                                                                    女性であることと PostgreSQL を使用することは、予測される給与にわずかにプラスの影響を与えますが、東アジア人でもあることは、予測される給与にさらにマイナスの影響を与えます。この文脈では、この粒度でこれらの値を解釈するのは困難ですが、この追加レベルの説明も利用可能です。

                                                                                                                                                    Apache Spark を使用した SHAP の適用

                                                                                                                                                    SHAP値はモデルを前提として行ごとに独立してコンピュートされるため、Sparkを使用して並列で実行することも可能でした。次の例では、SHAP 値を並列コンピュートし、同様に性別に関連する突出した SHAP 値を持つ開発者を特定します:

                                                                                                                                                    Spark を使用して並列コンピュートされた、性別関連のSHAP値が最もマイナスである開発者の表の例。

                                                                                                                                                    SHAP値のクラスタリング

                                                                                                                                                    SHAP で評価する予測が多数ある場合、Spark を適用するのが有利です。その出力を基に、たとえば バイセクティング k-means を使って Spark で結果をクラスタリングすることも可能です:

                                                                                                                                                    性別に関連するSHAP効果の合計が最も負であるクラスターは、さらに調査する価値があるかもしれません。そのクラスター内の回答者のSHAP値は何ですか?開発者全体の母集団と比較して、クラスターのメンバーはどのような特徴を持っていますか?

                                                                                                                                                    最も負のジェンダー関連 SHAP 値を持つクラスター内での、ジェンダー アイデンティティの相対的な普及率を示す表の例。

                                                                                                                                                    たとえば、(女性のみと)認識している開発者は、開発者全体の人口の約2.8倍の割合でこのクラスターに含まれています。先の分析を考えれば、これは驚くことではありません。このクラスターは、予測される給与全体が低くなる原因となっているこのグループ特有の他の要因を評価するために、さらに調査することができます。

                                                                                                                                                    まとめ

                                                                                                                                                    SHAP を用いたこの種の分析は、あらゆるモデルでランでき、また大規模にランすることも可能です。分析ツールとして、モデルをデータ探偵に変え、予測結果がより詳細な調査に値することを示唆する個々のインスタンスを明らかにします。SHAPの出力は容易に解釈でき、ビジネスユーザーがケースバイケースで評価できる直感的なプロットを生成します。

                                                                                                                                                    もちろん、この分析は性別、年齢、人種のバイアスの問題を調べることに限定されません。もっと具体的に言えば、顧客チャーンモデルに適用できます。そこでの問題は、単に「この顧客はチャーンするか?」ということだけでなく、「なぜこの顧客はチャーンしているのか?」ということです。価格が理由で解約する顧客には割引を提案できますが、利用頻度が低いことが理由で解約する顧客にはアップセルが必要な場合があります。

                                                                                                                                                    最後に、この分析は検証プロセスの一部として実行でき、機械学習モデル全体の透明性を高めます。モデルの検証では、多くの場合、モデルの全体的な精度に重点が置かれます。また、モデルの「推論」、つまり、どの特徴が予測に最も貢献したかにも焦点を当てる必要があります。SHAP を使用すると、個々の予測の説明の多くが全体的な特徴の重要度と矛盾する場合を検出するのにも役立ちます。

                                                                                                                                                    最新の投稿を受信トレイで受け取る

                                                                                                                                                    ブログを購読して、最新の投稿を受信トレイにお届けします。

                                                                                                                                                    Sign up

                                                                                                                                                    すべてのブログを見る
                                                                                                                                                    databricks logo
                                                                                                                                                    Databricks を選ぶ理由
                                                                                                                                                    Databricks を選ぶ理由
                                                                                                                                                    • For App Developers
                                                                                                                                                    • エグゼクティブ向け
                                                                                                                                                    • スタートアップ向け
                                                                                                                                                    • レイクハウスアーキテクチャ
                                                                                                                                                    • Databricks AIリサーチ
                                                                                                                                                    導入事例
                                                                                                                                                    • 注目の導入事例
                                                                                                                                                    パートナー
                                                                                                                                                    • パートナー概要
                                                                                                                                                    • パートナープログラム
                                                                                                                                                    • パートナーを探す
                                                                                                                                                    • パートナースポットライト
                                                                                                                                                    • クラウドプロバイダー
                                                                                                                                                    • パートナーソリューション
                                                                                                                                                    Databricks を選ぶ理由
                                                                                                                                                    • For App Developers
                                                                                                                                                    • エグゼクティブ向け
                                                                                                                                                    • スタートアップ向け
                                                                                                                                                    • レイクハウスアーキテクチャ
                                                                                                                                                    • Databricks AIリサーチ
                                                                                                                                                    導入事例
                                                                                                                                                    • 注目の導入事例
                                                                                                                                                    パートナー
                                                                                                                                                    • パートナー概要
                                                                                                                                                    • パートナープログラム
                                                                                                                                                    • パートナーを探す
                                                                                                                                                    • パートナースポットライト
                                                                                                                                                    • クラウドプロバイダー
                                                                                                                                                    • パートナーソリューション
                                                                                                                                                    製品
                                                                                                                                                    レイクハウスプラットフォーム
                                                                                                                                                    • プラットフォーム
                                                                                                                                                    • 共有
                                                                                                                                                    • データガバナンス
                                                                                                                                                    • 人工知能(AI)
                                                                                                                                                    • BI
                                                                                                                                                    • Database
                                                                                                                                                    • データ管理
                                                                                                                                                    • データウェアハウス
                                                                                                                                                    • データエンジニアリング
                                                                                                                                                    • データサイエンス
                                                                                                                                                    • アプリケーション開発
                                                                                                                                                    • セキュリティ
                                                                                                                                                    ご利用料金
                                                                                                                                                    • 料金設定の概要
                                                                                                                                                    • 料金計算ツール
                                                                                                                                                    オープンソース
                                                                                                                                                    統合とデータ
                                                                                                                                                    • マーケットプレイス
                                                                                                                                                    • IDE 統合
                                                                                                                                                    • パートナーコネクト
                                                                                                                                                    レイクハウスプラットフォーム
                                                                                                                                                    • プラットフォーム
                                                                                                                                                    • 共有
                                                                                                                                                    • データガバナンス
                                                                                                                                                    • 人工知能(AI)
                                                                                                                                                    • BI
                                                                                                                                                    • Database
                                                                                                                                                    • データ管理
                                                                                                                                                    • データウェアハウス
                                                                                                                                                    • データエンジニアリング
                                                                                                                                                    • データサイエンス
                                                                                                                                                    • アプリケーション開発
                                                                                                                                                    • セキュリティ
                                                                                                                                                    ご利用料金
                                                                                                                                                    • 料金設定の概要
                                                                                                                                                    • 料金計算ツール
                                                                                                                                                    統合とデータ
                                                                                                                                                    • マーケットプレイス
                                                                                                                                                    • IDE 統合
                                                                                                                                                    • パートナーコネクト
                                                                                                                                                    ソリューション
                                                                                                                                                    業種別
                                                                                                                                                    • 通信
                                                                                                                                                    • 金融サービス
                                                                                                                                                    • 医療・ライフサイエンス
                                                                                                                                                    • 製造
                                                                                                                                                    • メディア・エンタメ
                                                                                                                                                    • 官公庁・公共機関
                                                                                                                                                    • リテール・消費財
                                                                                                                                                    • 全て表示
                                                                                                                                                    クロスインダストリーソリューション
                                                                                                                                                    • AI エージェント
                                                                                                                                                    • AI ガバナンス
                                                                                                                                                    • サイバーセキュリティ
                                                                                                                                                    • マーケティング
                                                                                                                                                    データの移行
                                                                                                                                                    プロフェッショナルサービス
                                                                                                                                                    ソリューションアクセラレータ
                                                                                                                                                    業種別
                                                                                                                                                    • 通信
                                                                                                                                                    • 金融サービス
                                                                                                                                                    • 医療・ライフサイエンス
                                                                                                                                                    • 製造
                                                                                                                                                    • メディア・エンタメ
                                                                                                                                                    • 官公庁・公共機関
                                                                                                                                                    • リテール・消費財
                                                                                                                                                    • 全て表示
                                                                                                                                                    クロスインダストリーソリューション
                                                                                                                                                    • AI エージェント
                                                                                                                                                    • AI ガバナンス
                                                                                                                                                    • サイバーセキュリティ
                                                                                                                                                    • マーケティング
                                                                                                                                                    リソース
                                                                                                                                                    ドキュメント
                                                                                                                                                    カスタマーサポート
                                                                                                                                                    コミュニティ
                                                                                                                                                    トレーニング・認定試験
                                                                                                                                                    • トレーニング
                                                                                                                                                    • 認定
                                                                                                                                                    • 無料版
                                                                                                                                                    • 大学との連携
                                                                                                                                                    • Databricks アカデミー
                                                                                                                                                    イベント
                                                                                                                                                    • DATA+AI サミット
                                                                                                                                                    • Data+AI ワールドツアー
                                                                                                                                                    • AI Days
                                                                                                                                                    • イベントカレンダー
                                                                                                                                                    ブログ・ポッドキャスト
                                                                                                                                                    • Databricks ブログ
                                                                                                                                                    • AI ブログ
                                                                                                                                                    • Data Brew ポッドキャスト
                                                                                                                                                    • Data+AI のチャンピオンシリーズ
                                                                                                                                                    トレーニング・認定試験
                                                                                                                                                    • トレーニング
                                                                                                                                                    • 認定
                                                                                                                                                    • 無料版
                                                                                                                                                    • 大学との連携
                                                                                                                                                    • Databricks アカデミー
                                                                                                                                                    イベント
                                                                                                                                                    • DATA+AI サミット
                                                                                                                                                    • Data+AI ワールドツアー
                                                                                                                                                    • AI Days
                                                                                                                                                    • イベントカレンダー
                                                                                                                                                    ブログ・ポッドキャスト
                                                                                                                                                    • Databricks ブログ
                                                                                                                                                    • AI ブログ
                                                                                                                                                    • Data Brew ポッドキャスト
                                                                                                                                                    • Data+AI のチャンピオンシリーズ
                                                                                                                                                    企業情報
                                                                                                                                                    企業概要
                                                                                                                                                    • Databricks について
                                                                                                                                                    • 経営陣
                                                                                                                                                    • Databricks Ventures
                                                                                                                                                    • ご相談・お問い合わせ
                                                                                                                                                    採用情報
                                                                                                                                                    • 採用情報概要
                                                                                                                                                    • 求人情報
                                                                                                                                                    プレス・ニュース記事
                                                                                                                                                    • ニュースルーム
                                                                                                                                                    • 受賞歴と業界評価
                                                                                                                                                    セキュリティと信頼
                                                                                                                                                    企業概要
                                                                                                                                                    • Databricks について
                                                                                                                                                    • 経営陣
                                                                                                                                                    • Databricks Ventures
                                                                                                                                                    • ご相談・お問い合わせ
                                                                                                                                                    採用情報
                                                                                                                                                    • 採用情報概要
                                                                                                                                                    • 求人情報
                                                                                                                                                    プレス・ニュース記事
                                                                                                                                                    • ニュースルーム
                                                                                                                                                    • 受賞歴と業界評価
                                                                                                                                                    databricks logo

                                                                                                                                                    Databricks Inc.
                                                                                                                                                    160 Spear Street, 15th Floor
                                                                                                                                                    San Francisco, CA 94105
                                                                                                                                                    1-866-330-0121

                                                                                                                                                    採用情報

                                                                                                                                                    © Databricks 2026. All rights reserved. Apache, Apache Spark, Spark and the Spark logo are trademarks of the Apache Software Foundation.

                                                                                                                                                    • プライバシー通知
                                                                                                                                                    • |利用規約
                                                                                                                                                    • |現代奴隷法に関する声明
                                                                                                                                                    • |カリフォルニア州のプライバシー権利
                                                                                                                                                    • |プライバシー設定