Exai Bio & Databricks: AIを活用した液体生検によるがんの早期発見を加速
によって アミール・カーマニー 、 ババク・アリパナヒ による投稿
リキッドバイオプシーは、血液中のがんバイオマーカーを分析することで、非侵襲的ながんのスクリーニングとモニタリングを可能にしますが、その信号はスパースでノイズが多い場合があります。Exai Bioは、新しい低分子RNAバイオマーカーを使用してAI駆動型リキッドバイオプシーを開拓しました。最近の研究では、Exai-1とOrionという、セルフリーRNAのための2つの新しい生成AIが、信号のデノイジングと早期のがん検出においてブレークスルーを達成しました。これらの進歩は、DatabricksのレイクハウスアーキテクチャとクラウドAIインフラストラクチャによって可能になりました。大規模なゲノムデータセットを統合し、マネージド機械学習ツール(MLflow、ワークフロー、スケーラブルなクラスタ)を提供することで、DatabricksはExaiの研究者が数千の患者サンプルで大規模なマルチモーダルモデルをトレーニングすることを可能にします。この共同の取り組みでは、Exai Bioの技術的なブレークスルーに焦点を当て、DatabricksのレイクハウスとMLOpsエコシステムが最先端の生物医学AIをどのように加速させるかを示します。
リキッドバイオプシーのためのマルチモーダル基盤モデル
Exai Bioの最新の研究では、液体生検データに特化した大規模生成モデルが紹介されています。これらのモデルは、配列情報、分子存在量、豊富なメタデータを統合し、がん関連RNAの高品質な表現を学習します。
- Exai-1(cfRNA基盤モデル):RNAシーケンスの埋め込みとセルフリーRNA(cfRNA)の発現量プロファイルを統合する、Transformerベースの変分オートエンコーダです。Exai-1は、13,014の血液サンプルから得られた3,060億以上のシーケンストークンを含む大規模なデータセットで事前トレーニングされており、cfRNA発現の生物学的に意味のある潜在構造を学習します。シーケンス(RNA-FM言語モデルからの埋め込み経由)と発現データの両方を活用することで、Exai-1は「合成cfRNAプロファイルを生成することにより、信号の忠実度を高め、技術的なノイズを低減し、疾患の検出を改善」します。実際に、Exai-1はスパースなcfRNA測定値をデノイズし、データセットを拡張することもできます。Exai-1の再構成されたプロファイルでトレーニングされた分類器は、生データでトレーニングされたものよりも一貫して高い性能を示します。この生成的な転移学習アプローチは、あらゆるcfRNAベースの診断タスクのための基盤モデルを効果的に作成します。例えば、同じ事前トレーニング済みの埋め込みを使用して、他のがんや新しいバイオマーカーを検出するなどです。
- Orion(OncRNA生成分類器):腫瘍から分泌される低分子RNAである、循環オーファン非コーディングRNA(oncRNA)に特化した変分オートエンコ ーダ(VAE)です。OrionはツインVAEアーキテクチャを持ち、がん関連oncRNAのカウントベクトルと、コントロールRNA(内在性ハウスキーピングRNAなど)のベクトルを入力として受け取ります。各入力は別々のエンコーダに供給され、その出力によって堅牢な分類器のトレーニングと、根底にあるoncRNA分布の再構成が可能になります。重要なことに、Orionのトレーニングには対照的損失と分類損失が含まれます。トリプレットマージン損失は、同じ表現型(がん vs. コントロール)のサンプルを近づけ、異なる表現型のサンプルを遠ざけることで、バッチ効果や技術的なばらつきを除去します。学習された埋め込みは、下流の分類器によってがんの存在を予測するために使用されます。1,050人の肺がん患者と対照群からなるコホートにおいて、OrionはすべてのステージのNSCLC検出で感度94%、特異度87%を達成し、ホールドアウトデータにおいて標準的な手法を約30%上回りました。この生成的で半教師ありのモデルは、cfRNA信号を自動的にデノイズし、コンパクトながん特異的なフィンガープリントを生成することで、従来のアッセイよりも正確な早期検出を可能にします。

図1:Exai Bio のリキッドバイオプシー用 Orion モデルのアーキテクチャ。画像提供:Karimzadeh et al., Nat Commun.
これらのモデルは一体となって、リキッドバイオプシーのためのスケーラブルなAIフレームワークを形成します。Exai-1は、現実的なRNAプロファイルを生成し、下流の分類器を強化できる汎用的なcfRNA「言語モデル」を提供します。Orionは、このアプローチを肺がんスクリーニングという特定の問題に合わせてファインチューニングします。どちらのモデルも、さまざまな条件下で汎化します。Exai-1は、真の生物学的シグナルを交絡因子から分離することで、「生体液横断的な変換とアッセイの互換性を促進」します。その結果、早期がん検出とバイオマーカー発見のために、微細なcfRNAバイオマーカーパターンをマイニングできる新世代のAIツールが生まれました。
Databricks データインテリジェンス & AI プラットフォーム:実現を可能にするインフラストラクチャ
これらのAIにおけるブレークスルーは、Databricksの統合データ分析プラットフォームによって実現されています。主な機能:
- 統合レイクハウス (Delta) ストレージ: すべてのメタデータ (サンプル情報、ラボデータ、実験データ) は Databricks Delta テーブルに保存されます。この単一のレイクハウスはデータサイロを防ぎ、リアルタイム分析を可能にします。Databricks のヘルスケアソリューションが指摘するように、レイクハウスは「患者、研究、運用のデータを大規模に集約」し、従来のサイロを排除することで、ゲノムデータと臨床データを即座にクエリ可能にします。例えば、Exai が保有する 13,000 件以上 の血液サンプル (血清および血漿) と 10,000 件以上の過去の低分子 RNA シーケンス (small-RNA-seq) データセットはすべて Delta テーブルに登録されており、モデルトレーニングのために迅速にフィルタリングおよび結合できます。
- スケーラブルなコンピュートとクラスタ:Databricksのクラウドネイティブなクラスタにより、研究者は高度なDevOpsの労力をかけずに、GPUや高メモリのインスタンスを立ち上げることができます。Databricksによって、私たちは迅速に動くことができます。クラスタ管理は直感的で、自動終了やコストダッシュボードなどの機能によって予算を管理できます。このオンデマンドのスケーリングにより、数百のCPUコア/GPU上でExai-1とOrionの最適化とトレーニングが可能になりました。Databricks Workflows(旧Jobs)は「コンピュート」を整理します。研究者は、定義された依存関係を持つ多段階のETLおよびトレーニングパイプラインを起動し、複雑なオーケストレーションコードを書くことなくタスクを並列化できます。
- MLOpsのためのMLflow:すべてのエクスペリメントラン(ハイパーパラメータ、データセット、メトリクス、アーティファクト)は、Databricksに緊密に統合されたMLflowで追跡されます。Databricksは追跡サーバーなど、すべてのMLflow環境設定を提供し、セットアップなしで利用できるようにします。MLflowの実験追跡とモデルレジストリは、再現性とコラボレーションを保証します。マネージドMLflowを使用することで、数十のモデルのメトリクスとアーティファクトを記録でき、それによってアブレー ションスタディを実行し、モデルパフォーマンスのさまざまな側面を改善する特徴量を最適化することが可能になりました。
- 再現可能な環境: Databricks Container Services と Git ベースの Repos (CI/CD 対応) は、各パイプラインのソフトウェア依存関係を固定します。これは、Exai Bio の研究スタック (カスタムのバイオインフォマティクスツールを含む) にとって不可欠であり、すべてのチームメンバーが同一の環境でモデルを実行できるようにします。要するに、Databricks はターンキー MLOps プラットフォームを提供します。これには、Spark によるデータ取り込み、MLflow によるエクスペリメント追跡、Jobs/ワークフローs によるオーケストレーション、自動スケーリングによるエラスティックコンピュートが含まれます。
がん検出とバイオマーカー発見への影響
科学とエンジニアリングの複合的な進歩は、大きな意味を持ちます:
- 強化された早期発見 – 血液中の RNA 分子を背景に cfRNA のがんシグナルを増幅することで、当社の AI モデルはがんを早期段階で検出できます。Exai-1 のノイズ除去機能は、少量の血液サンプルからでもより鮮明なシグナルを生成し、Orion の生成的埋め込みは早期肺がんに対して高い感度 (94%) を達成します。このような改善は、治癒可能な段階で腫瘍を発見する、より信頼性の高いスクリーニング検査 (例: 年に一度の血液検査) につながる可能性があります。
- 新しいバイオマーカーの知見 – モデルは生のRNAデータから学習し、標的パネルのバイアスを低減します。例えば、OrionはTCGAと組織データから数百の新規oncRNAを特定し、その後、血液中でのその重要性を検証しました。Exai-1の潜在空間は、RNAの配列、構造、存在量の情報を組み合わせることで、これまで見過ごされてきたバイオマーカーを浮き彫りにする可能性があります。重要なのは、転移学習のパラダイムによって、新しい発見を迅速に取り込み(例:新しいシーケンストークンへの交換)、統一されたプラットフォームでファインチューニングできることです。
- 生成的データ拡張 – Exai-1は、そのデコーダーからサンプリングすることで、現実的なcfRNAプロファイルをシミュレートできます。この合成データは、Exai-1の再構成を使用した際に、より高いAUCが示されたように、分類器のトレーニングを強化します。実際には、これは、実際のサンプルが限られているにもかかわらず、希少ながんのシグネチャをより堅牢に学習できることを意味します。言い換えれば、「希少ながんの検出には...基盤モデルと大量のトレーニングデータが必要」であるため、基盤モデルはデータの希少性という重要な課題を緩和します。
- スケーラブルな研究コラボレーション – Databricks上に構築することで、Exaiの学際的なチーム(生物学者、バイオインフォマティシャン、生物統計学者、機械学習科学者、データエンジニア)はシームレスに連携できます。Data scientistsはPyTorchとSparkを並行して実行し、生物統計学者はRでコホートをクエリーし、生物学者は新しい処理済みサンプルをlogに記録し、レポートとダッシュボードは自動的に更新されます。この迅速なフィードバックループにより、Exaiチームは複数の種類のがんにおけるリキッドバイオプシーとAIシステムの応用を紹介し、18か月で7つの学会発表という成果を上げています。これは、エンタープライズグレードのAIインフラストラクチャがライフサイエンスの研究開発をいかに加速させるかを示す好例です。
今後の展望
Exai BioとDatabricksのコラボレーションは、最先端のAIモデルと最新のクラウドアーキテクチャが一体となって、がん診断のフロンティアをいかに押し広げるかを示しています。Exai Bioの基盤モデルと生成AIモデル(Exai-1およびOrion)は、深層生成学習がリキッドバイオプシーから強力なシグナルを抽出できることを実証しています。これらの進歩の根底にあるのは、異種の生物医学データを統合するDatabricksのレイクハウスと、大規模な実験を実用的かつ再現可能にするそのマネージドMLツール(MLflow、ワークフロー、パイプライン)です。今後も、モデルとパイプラインの改良を続けていきます。Exai BioとDatabricksは共に、スケーラブルで臨床的にインパクトのあるAIを活用したプレシジョンオンコロジーの基盤を築いています。
出典: Exai Bio ら、「A multi-modal cfRNA language model for liquid biopsy」(Nature Machine Intelligence、2025年);Exai Bio ら、Nature Commun.(2024年)「Deep 生成AI models analyzing circulating orphan non-coding RNAs…」;Databricksドキュメントとブログ。
(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事