Un workbench de ciencias de la vida abierto y gobernado que integra la computación acelerada y los modelos abiertos BioNeMo de NVIDIA para biología en una plataforma de extremo a extremo, ejecutada en su propio entorno de Databricks.
por Mark Lee y Srijit Nair
Los líderes de las ciencias de la vida necesitan una IA específica de dominio y lista para producción, creada directamente sobre sus propios datos gobernados. Juntos, Databricks y NVIDIA están haciendo posible este cambio: al combinar Databricks (gobernanza de Unity Catalog, MLflow, Model Serving y computación de GPU sin servidor) con NVIDIA BioNeMo Agent Toolkit, que incluye las bibliotecas NVIDIA CUDA-X, Parabricks y un catálogo creciente de modelos de biología y química como Proteina-Complexa, los clientes pueden ejecutar IA especializada donde ya residen los datos, en lugar de enviar datos confidenciales a API de terceros.
Este artículo se centra en una de las aplicaciones más difíciles de esa combinación: la R&D en ciencias de la vida y el descubrimiento de fármacos; un trabajo que puede requerir años y miles de millones en inversión, con datos que son en su gran mayoría no estructurados y confidenciales, en genómica, transcriptómica, biología estructural y química, disciplinas que rara vez comparten una cadena de herramientas común. Genesis Workbench es cómo se ve esto en la práctica.
Genesis Workbench es un modelo de referencia abierto para una aplicación de ciencias de la vida en Databricks; un entorno de trabajo modular que reúne las principales etapas del descubrimiento computacional de fármacos bajo un mismo techo, una sola UI y un único modelo de gobernanza. Cada dominio científico es un módulo que se puede implementar de forma independiente:
Esta plataforma transforma una caja de herramientas estándar en un entorno de trabajo científico cohesivo. Lo mejor de todo es que todo el entorno se puede implementar fácilmente mediante un único script. Mediante una UI de apuntar y hacer clic impulsada por Databricks Apps, los científicos de laboratorio pueden navegar por todo el flujo de trabajo de descubrimiento sin escribir código. La arquitectura subyacente se basa en modelos de código abierto gestionados en Unity Catalog, rastreados a través de MLflow y servidos en puntos de conexión de GPU. Al centralizar los conjuntos de datos públicos y patentados con Databricks AI Search, hemos eliminado por completo las dependencias de API externas. En última instancia, esta configuración fluida conecta cada paso del proceso, lo que permite que los hallazgos genómicos fluyan sin esfuerzo hacia la validación de célula única, la predicción de la estructura del objetivo, el acoplamiento de candidatos (docking), ADMET y la clasificación.
Al llevar cada etapa del descubrimiento a una plataforma nativa de Databricks y acelerada por NVIDIA, Genesis Workbench aborda directamente cuatro problemas que históricamente han impedido que la IA rinda al máximo en la R&D de ciencias de la vida:

Mantener integrados en el proceso a los científicos no computacionales. Una UI de React de apuntar y hacer clic, con visores 3D interactivos e interpretaciones de resultados generadas por IA en lenguaje sencillo, permite a un biólogo identificar variantes, simular un knockout, diseñar un aglutinante y clasificar candidatos sin escribir código, mientras que sus colegas computacionales conservan acceso completo a los trabajos, modelos y artefactos subyacentes con NVIDIA en cada etapa del pipeline.
En casi todas las etapas, el trabajo pesado lo realizan la computación acelerada y los modelos de NVIDIA:
Etapa de descubrimiento | Tecnología NVIDIA | Qué hace en Genesis Workbench |
|---|---|---|
Genómica | Parabricks | Parte del flujo de trabajo de genómica Identificación y anotación de variantes de la línea germinal aceleradas por GPU, revelando variantes patógenas a partir de los datos de su lakehouse |
Célula única | RAPIDS-singlecell (parte de scverse) | Parte del flujo de trabajo de célula única Agrupamiento (clustering), UMAP y expresión diferencial acelerados por GPU en grandes conjuntos de datos a escala, convirtiendo un trabajo por lotes nocturno en una exploración interactiva |
Molécula pequeña | GenMol (NV-GenMol-89M-v2) | Parte del flujo de trabajo de diseño guiado de moléculas Genera moléculas novedosas y sintetizables a partir de un andamio semilla en un bucle cerrado de generar→puntuar→resembrar, bajo restricciones estrictas con docking opcional en la recompensa |
Molécula grande | Proteina-Complexa | Parte del flujo de trabajo de diseño de enzimas Diseño de aglutinantes de proteínas mediante flow-matching y andamiaje de motivos (con ProteinMPNN + ESMFold), desde una estructura objetivo hasta candidatos a aglutinantes diseñados y clasificados |
Varias etapas | BioNeMo Recipes | Realiza el ajuste fino y ejecuta la inferencia con modelos preempaquetados en el contenedor BioNeMo sobre sus datos, en su propia infraestructura |
De cara al futuro, nos centramos en hacer que el entorno de trabajo sea aún más accesible y potente para el descubrimiento científico. Nuestra hoja de ruta incluye:
Genesis Workbench permite a los científicos impulsar de forma segura todo el proceso de descubrimiento de fármacos, desde la hipótesis hasta las terapias clasificadas, sin que sus datos salgan nunca del entorno. Al unificar herramientas aceleradas por GPU como Parabricks, CUDA-X Data Science, Proteina-Complexa, GenMol y BioNeMo Agent Toolkit bajo la gobernanza de Unity Catalog, proporciona una interfaz de usuario intuitiva diseñada específicamente para científicos de laboratorio. Esta potente canalización in-silico garantiza que solo los objetivos con mayor probabilidad avancen al laboratorio húmedo, lo que reduce drásticamente la pérdida de tiempo y recursos. Esta es la promesa de la IA de la industria hecha realidad: llevar IA especializada y segura directamente a sus datos.
Implemente Genesis Workbench hoy mismo desde nuestro repositorio de GitHub. También proporcionamos habilidades de Claude Code para ayudarle con las implementaciones y modificaciones. Agradecemos las contribuciones, ¡así que no dude en colaborar con el proyecto si puede! Si ya es cliente de Databricks y está interesado en una demostración en vivo, hable con su equipo de cuentas de Databricks.
Genesis Workbench es un blueprint abierto de Databricks Industry Solutions.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.