Ir al contenido principal
Salud y ciencias biológicas

Genesis Workbench: un diseño de referencia para la AI industrial en ciencias de la vida, impulsado por Databricks y NVIDIA

Un workbench de ciencias de la vida abierto y gobernado que integra la computación acelerada y los modelos abiertos BioNeMo de NVIDIA para biología en una plataforma de extremo a extremo, ejecutada en su propio entorno de Databricks.

por Mark Lee y Srijit Nair

  • Genesis Workbench es un blueprint de Databricks abierto y modular que integra las herramientas de computación acelerada de NVIDIA, incluyendo BioNeMo y Parabricks, en un único entorno seguro para el descubrimiento de fármacos de extremo a extremo.
  • La plataforma simplifica la R&D compleja al proporcionar una interfaz sin código de apuntar y hacer clic que permite a los científicos de laboratorio ejecutar tareas de genómica y diseño molecular, al tiempo que mantiene una estricta seguridad de la IP a través de la gobernanza de Unity Catalog.
  • Al centralizar los datos y eliminar las dependencias de API externas, el workbench agiliza todo el pipeline de investigación, desde la hipótesis inicial hasta el candidato terapéutico clasificado, manteniendo los datos propietarios dentro de un perímetro controlado y gobernado.

Llevamos el descubrimiento de fármacos acelerado por GPU a sus datos

Los líderes de las ciencias de la vida necesitan una IA específica de dominio y lista para producción, creada directamente sobre sus propios datos gobernados. Juntos, Databricks y NVIDIA están haciendo posible este cambio: al combinar Databricks (gobernanza de Unity Catalog, MLflow, Model Serving y computación de GPU sin servidor) con NVIDIA BioNeMo Agent Toolkit, que incluye las bibliotecas NVIDIA CUDA-X, Parabricks y un catálogo creciente de modelos de biología y química como Proteina-Complexa, los clientes pueden ejecutar IA especializada donde ya residen los datos, en lugar de enviar datos confidenciales a API de terceros.

Este artículo se centra en una de las aplicaciones más difíciles de esa combinación: la R&D en ciencias de la vida y el descubrimiento de fármacos; un trabajo que puede requerir años y miles de millones en inversión, con datos que son en su gran mayoría no estructurados y confidenciales, en genómica, transcriptómica, biología estructural y química, disciplinas que rara vez comparten una cadena de herramientas común. Genesis Workbench es cómo se ve esto en la práctica.

¿Qué es Genesis Workbench?

Genesis Workbench es un modelo de referencia abierto para una aplicación de ciencias de la vida en Databricks; un entorno de trabajo modular que reúne las principales etapas del descubrimiento computacional de fármacos bajo un mismo techo, una sola UI y un único modelo de gobernanza. Cada dominio científico es un módulo que se puede implementar de forma independiente:

  • Genómica
  • Célula única
  • Molécula grande
  • Molécula pequeña
  • Ajuste fino del modelo NVIDIA BioNeMo

Esta plataforma transforma una caja de herramientas estándar en un entorno de trabajo científico cohesivo. Lo mejor de todo es que todo el entorno se puede implementar fácilmente mediante un único script. Mediante una UI de apuntar y hacer clic impulsada por Databricks Apps, los científicos de laboratorio pueden navegar por todo el flujo de trabajo de descubrimiento sin escribir código. La arquitectura subyacente se basa en modelos de código abierto gestionados en Unity Catalog, rastreados a través de MLflow y servidos en puntos de conexión de GPU. Al centralizar los conjuntos de datos públicos y patentados con Databricks AI Search, hemos eliminado por completo las dependencias de API externas. En última instancia, esta configuración fluida conecta cada paso del proceso, lo que permite que los hallazgos genómicos fluyan sin esfuerzo hacia la validación de célula única, la predicción de la estructura del objetivo, el acoplamiento de candidatos (docking), ADMET y la clasificación.

Cómo Genesis Workbench acelera la R&D en ciencias de la vida

Al llevar cada etapa del descubrimiento a una plataforma nativa de Databricks y acelerada por NVIDIA, Genesis Workbench aborda directamente cuatro problemas que históricamente han impedido que la IA rinda al máximo en la R&D de ciencias de la vida:

  • Generación de flujos de trabajo asistida por IA. Utilice el entorno de trabajo de forma declarativa: describa la ciencia que desea y obtenga un pipeline ejecutable, sin necesidad de conexiones complejas ni código repetitivo. Esto reduce la barrera de "sé cómo construir esto" a "sé lo que quiero", de modo que más científicos puedan convertir ideas en experimentos e innovar más rápido. Vortex es el lienzo visual que lo hace posible.
  • Soporte para MCP. Genesis Workbench se convierte en un motor de trabajo para el ecosistema de IA más amplio: sus modelos y flujos de trabajo se transforman en herramientas que cualquier agente o cliente MCP puede invocar, de modo que la plataforma impulse sus asistentes y pipelines en lugar de vivir en un silo. Un servidor complementario de Model Context Protocol (MCP) lo expone a Databricks AI Playground, Claude, Cursor o a sus propios agentes; se implementa automáticamente con el núcleo.
  • Riesgo de IP y seguridad. Las secuencias, las bibliotecas de compuestos, los resultados de los ensayos y los datos de los pacientes se encuentran entre los activos más regulados de una organización. Los modelos y los datos se descargan una sola vez en Unity Catalog, la inferencia se ejecuta en puntos de conexión de Model Serving en su propio espacio de trabajo y no hay ninguna dependencia de API externas en tiempo de ejecución: su IP nunca sale de su perímetro gobernado.
  • Un panorama de modelos en constante cambio. La bio-IA avanza rápido. La arquitectura modular de Genesis Workbench trata cada modelo como un submódulo que se puede implementar de forma independiente en el mismo sustrato de registro y servicio, por lo que adoptar GenMol, Proteina-Complexa o un modelo más nuevo es solo un paso de implementación, no una reescritura.
  • Ajuste fino. El ajuste fino de modelos de código abierto en conjuntos de datos patentados y altamente gobernados en su Lakehouse facilita el aprovechamiento del conocimiento interno existente para una ideación y un descubrimiento de candidatos más rápidos.
  • Conexiones complejas entre disciplinas. Debido a que cada módulo comparte una misma plataforma, modelo de gobernanza y sustrato de trabajos/servicios/MLflow, las disciplinas se conectan de forma nativa, con transferencias dentro de la aplicación (incluida la resolución de gen→secuencia) en lugar de un frágil proceso de copiar y pegar entre sistemas. El entorno de trabajo es la capa de integración.

Mantener integrados en el proceso a los científicos no computacionales. Una UI de React de apuntar y hacer clic, con visores 3D interactivos e interpretaciones de resultados generadas por IA en lenguaje sencillo, permite a un biólogo identificar variantes, simular un knockout, diseñar un aglutinante y clasificar candidatos sin escribir código, mientras que sus colegas computacionales conservan acceso completo a los trabajos, modelos y artefactos subyacentes con NVIDIA en cada etapa del pipeline.

En casi todas las etapas, el trabajo pesado lo realizan la computación acelerada y los modelos de NVIDIA:

Etapa de descubrimiento

Tecnología NVIDIA

Qué hace en Genesis Workbench

Genómica

Parabricks

Parte del flujo de trabajo de genómica

Identificación y anotación de variantes de la línea germinal aceleradas por GPU, revelando variantes patógenas a partir de los datos de su lakehouse

Célula única

RAPIDS-singlecell (parte de scverse)

Parte del flujo de trabajo de célula única

Agrupamiento (clustering), UMAP y expresión diferencial acelerados por GPU en grandes conjuntos de datos a escala, convirtiendo un trabajo por lotes nocturno en una exploración interactiva

Molécula pequeña

GenMol (NV-GenMol-89M-v2)

Parte del flujo de trabajo de diseño guiado de moléculas

Genera moléculas novedosas y sintetizables a partir de un andamio semilla en un bucle cerrado de generar→puntuar→resembrar, bajo restricciones estrictas con docking opcional en la recompensa

Molécula grande

Proteina-Complexa

Parte del flujo de trabajo de diseño de enzimas

Diseño de aglutinantes de proteínas mediante flow-matching y andamiaje de motivos (con ProteinMPNN + ESMFold), desde una estructura objetivo hasta candidatos a aglutinantes diseñados y clasificados

Varias etapas

BioNeMo Recipes

Realiza el ajuste fino y ejecuta la inferencia con modelos preempaquetados en el contenedor BioNeMo sobre sus datos, en su propia infraestructura

El futuro de Genesis Workbench

De cara al futuro, nos centramos en hacer que el entorno de trabajo sea aún más accesible y potente para el descubrimiento científico. Nuestra hoja de ruta incluye:

  • Generación automatizada de flujos de trabajo: Presentamos la automatización impulsada por IA para generar flujos de trabajo científicos complejos, lo que facilita la integración perfecta de nuevos modelos y diversas fuentes de datos.
  • Integración de habilidades de IA de NVIDIA: Estamos integrando NVIDIA BioNeMo Skills y cómo BioNeMo Agent Toolkit puede mejorar la inteligencia y las capacidades nativas de la plataforma. Se integrarán más habilidades a medida que estén disponibles.
  • Servicios MCP: Planeamos agregar servicios MCP (Model Context Protocol) para garantizar que Genesis Workbench pueda proporcionar fácilmente datos e información de alta calidad a las aplicaciones consumidoras descendentes.

De la enfermedad al candidato, en una única plataforma gobernada

Genesis Workbench permite a los científicos impulsar de forma segura todo el proceso de descubrimiento de fármacos, desde la hipótesis hasta las terapias clasificadas, sin que sus datos salgan nunca del entorno. Al unificar herramientas aceleradas por GPU como Parabricks, CUDA-X Data Science, Proteina-Complexa, GenMol y BioNeMo Agent Toolkit bajo la gobernanza de Unity Catalog, proporciona una interfaz de usuario intuitiva diseñada específicamente para científicos de laboratorio. Esta potente canalización in-silico garantiza que solo los objetivos con mayor probabilidad avancen al laboratorio húmedo, lo que reduce drásticamente la pérdida de tiempo y recursos. Esta es la promesa de la IA de la industria hecha realidad: llevar IA especializada y segura directamente a sus datos.

¿Listo para acelerar el descubrimiento de fármacos?

Implemente Genesis Workbench hoy mismo desde nuestro repositorio de GitHub. También proporcionamos habilidades de Claude Code para ayudarle con las implementaciones y modificaciones. Agradecemos las contribuciones, ¡así que no dude en colaborar con el proyecto si puede! Si ya es cliente de Databricks y está interesado en una demostración en vivo, hable con su equipo de cuentas de Databricks.

Genesis Workbench es un blueprint abierto de Databricks Industry Solutions.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.