Ir al contenido principal

Ponga la ciencia de datos en producción con Repos en Databricks

prod-ds-repos-og2

Publicado: March 16, 2021

Producto4 min de lectura

La mayoría de las soluciones de ciencia de datos hacen que los equipos de datos elijan entre la flexibilidad para la exploración y la rigidez para la producción. Como resultado, los científicos de datos a menudo necesitan entregar su trabajo a equipos de ingeniería que utilizan un stack de tecnología diferente y, en esencia, reescriben su trabajo en un nuevo entorno. Esto no solo es costoso, sino que también retrasa el tiempo que tarda el trabajo de un científico de datos en aportar valor al negocio.

Al integrarse con Git, los Repos de Databricks proporcionan el mejor entorno de desarrollo de su clase para la ciencia de datos y la ingeniería de datos.

El Data Science Workspace de última generación en Databricks gestiona estas compensaciones para proporcionar una experiencia abierta y unificada para los equipos de datos modernos. Como parte de este Databricks Workspace, nos complace anunciar la disponibilidad pública de la nueva característica Repos, que ofrece integración a nivel de repositorio con proveedores de Git, lo que permite que cualquier miembro del equipo de datos siga las mejores prácticas. Los Repos de Databricks se integran con su kit de herramientas para desarrolladores con compatibilidad para una amplia gama de proveedores de Git, incluidos Github, Bitbucket, Gitlab y Microsoft Azure DevOps.

Al integrarse con Git, los Repos de Databricks proporcionan un entorno de desarrollo de primera categoría para la ciencia de datos y la ingeniería de datos. Puede aplicar estándares para el código desarrollado en Databricks, como revisiones de código, pruebas, etc., antes de implementar su código en producción. Los desarrolladores encontrarán funcionalidades conocidas de Git en los Repos, incluida la capacidad de clonar repositorios remotos de Git (Figura 1), gestionar ramas, extraer cambios remotos e inspeccionar visualmente los cambios pendientes antes de confirmarlos (Figura 2).

Primeros pasos con los repos de Git en los workspaces de Databricks agregando un repositorio de Git remoto
Figura 1: Para comenzar, solo proporciona la URL del repositorio de Git que quieres clonar.
Los desarrolladores pueden trabajar en su propia rama de desarrollo, confirmar el código y extraer los cambios. Los cambios pendientes se pueden inspeccionar en la UI antes de confirmarlos.
Figura 2: Los desarrolladores pueden trabajar en su propia rama de desarrollo, confirmar el código y extraer los cambios. Los cambios pendientes se pueden inspeccionar en la UI antes de confirmarlos.

Con el lanzamiento público de Repos, estamos agregando funcionalidades para satisfacer los casos de uso empresariales más exigentes:

  • Las listas de permitidos permiten a los administradores configurar prefijos de URL de repositorios de Git en los que los usuarios pueden confirmar código. Esto garantiza que el código no se pueda enviar accidentalmente a repositorios no permitidos.
  • La detección de secretos identifica los secretos de texto no cifrado en el código fuente antes de que se confirmen, lo que ayuda a los equipos de datos a seguir las prácticas recomendadas para el uso de administradores de secretos.

Los Repos también se pueden integrar con sus canalizaciones de CI/CD y permiten a los equipos de datos llevar el código de ciencia de datos y machine learning (ML) de la experimentación a la producción sin problemas. Con la API de Repos (actualmente en vista previa privada, comuníquese con su representante de Databricks para obtener acceso), puede actualizar mediante programación sus Databricks Repos a la última versión de una rama remota. Esto le permite implementar fácilmente canalizaciones de CI/CD, p. ej., el siguiente flujo de trabajo de prácticas recomendadas:

  1. Desarrollo: los desarrolladores trabajan en ramas de características en copias de trabajo personales de un repositorio remoto en sus carpetas de usuario.
  2. Revisión y prueba: cuando una característica está lista para su revisión y se crea una PR, su sistema de CI/CD puede usar la API de Repos para actualizar automáticamente un entorno de prueba en Databricks con los cambios en la rama de la característica y, luego, ejecutar un conjunto de pruebas para validar los cambios.
  3. Producción: Finalmente, una vez que todas las pruebas hayan pasado y el PR haya sido aprobado y fusionado, su sistema de CI/CD puede usar la API de Repos para actualizar el entorno de producción en Databricks con los cambios. Sus trabajos de producción ahora se ejecutarán con el código más reciente.

La característica Repos es parte de Next Generation Workspace y, con esta versión pública, permite a los equipos de datos seguir fácilmente las prácticas recomendadas y acelerar el camino de la exploración a la producción.

Empieza ahora

El ícono de Repos se mostrará en los Workspaces de Databricks que tengan la función habilitada.

¡Los Repos están en versión preliminar pública y se pueden habilitar para los Workspaces de Databricks! Para habilitar Repos, ve al Panel de administración -> Avanzado y haz clic en el botón “Habilitar” junto a “Repos”. Obtén más información en nuestra documentación para desarrolladores.

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks