La mayoría de las soluciones de ciencia de datos hacen que los equipos de datos elijan entre la flexibilidad para la exploración y la rigidez para la producción. Como resultado, los científicos de datos a menudo necesitan entregar su trabajo a equipos de ingeniería que utilizan un stack de tecnología diferente y, en esencia, reescriben su trabajo en un nuevo entorno. Esto no solo es costoso, sino que también retrasa el tiempo que tarda el trabajo de un científico de datos en aportar valor al negocio.
El Data Science Workspace de última generación en Databricks gestiona estas compensaciones para proporcionar una experiencia abierta y unificada para los equipos de datos modernos. Como parte de este Databricks Workspace, nos complace anunciar la disponibilidad pública de la nueva característica Repos, que ofrece integración a nivel de repositorio con proveedores de Git, lo que permite que cualquier miembro del equipo de datos siga las mejores prácticas. Los Repos de Databricks se integran con su kit de herramientas para desarrolladores con compatibilidad para una amplia gama de proveedores de Git, incluidos Github, Bitbucket, Gitlab y Microsoft Azure DevOps.
Al integrarse con Git, los Repos de Databricks proporcionan un entorno de desarrollo de primera categoría para la ciencia de datos y la ingeniería de datos. Puede aplicar estándares para el código desarrollado en Databricks, como revisiones de código, pruebas, etc., antes de implementar su código en producción. Los desarrolladores encontrarán funcionalidades conocidas de Git en los Repos, incluida la capacidad de clonar repositorios remotos de Git (Figura 1), gestionar ramas, extraer cambios remotos e inspeccionar visualmente los cambios pendientes antes de confirmarlos (Figura 2).


Con el lanzamiento público de Repos, estamos agregando funcionalidades para satisfacer los casos de uso empresariales más exigentes:
Los Repos también se pueden integrar con sus canalizaciones de CI/CD y permiten a los equipos de datos llevar el código de ciencia de datos y machine learning (ML) de la experimentación a la producción sin problemas. Con la API de Repos (actualmente en vista previa privada, comuníquese con su representante de Databricks para obtener acceso), puede actualizar mediante programación sus Databricks Repos a la última versión de una rama remota. Esto le permite implementar fácilmente canalizaciones de CI/CD, p. ej., el siguiente flujo de trabajo de prácticas recomendadas:
La característica Repos es parte de Next Generation Workspace y, con esta versión pública, permite a los equipos de datos seguir fácilmente las prácticas recomendadas y acelerar el camino de la exploración a la producción.

¡Los Repos están en versión preliminar pública y se pueden habilitar para los Workspaces de Databricks! Para habilitar Repos, ve al Panel de administración -> Avanzado y haz clic en el botón “Habilitar” junto a “Repos”. Obtén más información en nuestra documentación para desarrolladores.
Produto
June 12, 2024/11 min de leitura

