2026年3月25日

Tevogen Bio社の、救命治療の効率化への道のり

データとAIで創薬を加速する

イノベーション：Tevogen Bioは、ExacTcellプラットフォームと独自のPredicTcell AIモデルを活用して、伝統的に遅く、30億ドルの創薬プロセスを近代化および自動化しています。
課題：手動のウェットラボテストとマルチテラバイト級のデータサイロの「ボトルネック」を克服するために、TevogenはMicrosoftおよびDatabricksと提携し、レイクハウスアーキテクチャ上に大規模で管理されたデータプラットフォームを構築しました。
結果：160億のデータポイントを処理することにより、Tevogenは50日間の研究サイクルをわずか24時間に短縮し、アルファモデルで93〜97％のリコール率を達成して、より迅速で手頃な価格の治療法を提供しました。

創薬にかかる10年以上のプロセスを加速する

医薬品開発には30億ドル以上がかかり、製品を市場に投入するには10〜12年の歳月が必要です。これらは、製品の入手可能性とコストの問題に直接寄与します。

Tevogen Bioは、特許取得済みのExacTcellプラットフォームを開発し、単一のHLA制限に対して、ウイルス性、腫瘍性、または神経性疾患を対象とするターゲットを特定し、これらの問題に対処しています。単一のウイルス候補であるSARS-COV2の概念実証トライアルの初期ターゲット選択は、手動で行われました。単一HLA制限製品は、人口の大部分に対応できる能力がありましたが、多大な時間とリソースのコミットメントが必要であり、ウェットラボでのテストと確認に18〜24ヶ月かかりました。

より迅速で安価でアクセスしやすいケアを提供するというTevogenのミッションステートメントを満たすために、Tevogen.AIはMicrosoftおよびDatabricksと提携し、コアプラットフォームの科学的理解を最適化すると同時に、追加の適応症へのパイプラインを合理化および加速することを目指しました。

課題は、科学者や研究者がかつて数ヶ月かかっていたプロセスを数日、さらには数時間に短縮できるように、さまざまな疾患にわたるタンパク質配列のライブラリを取り込み、作成することでした。

さらに、このデータセットは、Tevogen Bioの独自の科学に裏打ちされたTevogen.AIの特許取得済み基盤アルゴリズムモデルをトレーニングするために使用されます。Tevogenの経営陣は、機械学習手法を使用して免疫学的に活性なペプチドを予測するために、既知の遺伝子タンパク質のデータセットをキュレーションするという課題も提供しました。

ボトルネック：マルチテラバイト級データセットの処理

このデータセットをキュレーションするために、チームはマルチテラバイト級のデータセットを調達し、アルゴリズムトレーニングを容易にする関連機能で整理する必要があるというユニークな課題に直面しました。これは2つの主要な問題を引き起こしました。

マルチレベルのクリーニングとフィルタリングにより、関連情報を迅速に調達および整理するためのデータパイプラインの作成、および
シリアルに実行するように設計されたプロセスを並列に変換すること。

ここでDatabricksが重要なパートナーであることが証明されました。

Databricksによる最新のデータレイクハウスの構築

モダナイゼーションの基盤としてDatabricks Platformを選択しました。Medallion ArchitectureとUnity Catalogの力を活用し、ブロンズ、シルバー、ゴールドのレイヤーにデータを慎重に格納するための多数のパイプラインを構築し、厳格なガバナンスと細粒度アクセス制御を維持しました。

分散コンピューティングのパワーとクリーンな構造を活用することで、プロセスにかかる時間を50日から24時間に短縮できました。メダリオンアーキテクチャは、さまざまな機械学習（ML）モデルを開発するための基盤としても機能しました。

Professional Servicesチームの専門家、特にVibhor Nigam氏とMohamad Abafoul氏の協力により、Tevogen.AIは大規模な処理を実行し、2400万のタンパク質からなるデータセットを収集することができました。その後、メダリオンアーキテクチャのブロンズレイヤーからシルバーレイヤーにかけて、160億のデータポイントと約7億の一意のペプチドを導出するために精製およびソートされました。さらに、約3700万のクロス照合された専門記事をキュレーションすることができました。

データからAIへ：PredicTcellモデルのトレーニング

バイオインフォマティクスに携わったことのある人なら誰でも、これが数ヶ月で達成できる偉業ではないことを理解しています。このプロセスが行われるにつれて、チームは並行して作業を行い、自動トレーニング、推論、監視、保持を可能にするMLOpsフレームワークを作成しました。エンゲージメントの初期フェーズ完了後、チームは従来のXGBoost手法とESMモデルでトレーニングされたPredicTcellモデルのアルファバージョンを提供し、最終的に93〜97％のリコール率と38〜43％の精度を達成しました。

さらに、データセットの拡張により、Tevogenの科学チームはモデルトレーニングサイクルに関する新しい洞察を得て提供できるようになり、各イテレーションでトレーニング方法を洗練させることができました。Agent Bricksと生化学的特性を組み合わせたRAG統合を使用して専門記事を迅速に評価するなど、トレーニングセットに追加機能を継続的に追加しています。

将来展望：医療の聖杯を解き放つ

PredicTcellモデルのベータバージョンのトレーニングが開始され、AdapTcellモデルのアルファバージョンの作業を開始するにあたり、Tevogen.AIは、医療の聖杯を解き放つ鍵となる、精度を高め続けるペプチドからタンパク質への結合親和性の最先端予測モデルを作成する独自の立場にあります。

独自のモデルにより、Tevogen.AIは、新規またはその他のタンパク質に対して、非常に高い精度で結合ペプチドを予測するという最終目標を達成できると確信しています。

「確率的ワークフローに決定論を追加することが成功の鍵です。in-vivo / in-silicoの試行錯誤プロセスをバランスさせることは、すべてのバイオテクノロジー企業が創薬に注力すべきことです」とTevogenのCIO兼Tevogen.AIの責任者であるMittul Mehtaは述べています。

「DatabricksとMicrosoftとの関係には非常に満足しています。両社は最高の能力を提供し、私たちが継続的に革新し、Tevogenの目標である大規模な患者集団への手頃でアクセス可能な治療法の提供を達成できるようにしています。創薬におけるAIを革新するために、これら2つの優れたパートナーと協力し続けることを楽しみにしています。」

(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事