Databricks Labs
¡Databricks Labs son proyectos creados por el equipo de campo para ayudar a los clientes a llevar sus casos de uso a producción más rápido!
DQX
Comprobación simplificada de la calidad de los datos a escala para cargas de trabajo de PySpark en DataFrames estándar y de streaming.
Kasal
Kasal es una forma interactiva y low-code de crear e implementar agentes de IA en la plataforma de Databricks.
Lakebridge
Lakebridge es la plataforma de migración de Databricks, diseñada para proporcionar a las empresas una solución integral de extremo a extremo para modernizar los data warehouses heredados y los sistemas ETL. Lakebridge admite una amplia gama de plataformas de origen —como Teradata, Oracle, Snowflake, SQL Server, DataStage y más— y automatiza cada etapa del proceso de migración, desde el descubrimiento y la evaluación hasta la conversión de código, el movimiento de datos y la validación, lo que garantiza una transición rápida y de bajo riesgo para las organizaciones que buscan desbloquear la innovación y la eficiencia en su patrimonio de datos.
Otros proyectos
Databricks MCP
Una colección de servidores MCP para ayudar a los agentes de IA a obtener datos empresariales de Databricks y automatizar las acciones comunes de los desarrolladores en Databricks.
App de agente conversacional
Aplicación con una interfaz de chat potenciada por las API de conversación de Databricks Genie, diseñada específicamente para ejecutarse como una Databricks App.
Aplicación de chatbot de asistente de conocimiento
Ejemplo de aplicación de chatbot Asistente de conocimiento de Databricks.
Aplicación de registro de características
La app ofrece una interfaz fácil de usar para explorar las características existentes en Unity Catalog. Además, los usuarios pueden generar código para crear especificaciones de características y conjuntos de entrenamiento para entrenar modelos de machine learning e implementar características como endpoints de servicio de características.
Mosaic
Mosaic es una herramienta que simplifica la implementación de pipelines de datos geoespaciales escalables al unir bibliotecas geoespaciales de código abierto comunes y Apache Spark™️. Mosaic también ofrece un conjunto de ejemplos y prácticas recomendadas para casos de uso geoespaciales comunes. Proporciona APIs para expresiones ST_ y expresiones GRID_, y es compatible con sistemas de índice de cuadrícula como H3 y British National Grid.
DLT-META
Este framework facilita la ingesta de datos usando Delta Live Tables y metadatos. Con DLT-META, un solo ingeniero de datos puede administrar fácilmente miles de tablas. Varios clientes de Databricks tienen DLT-META en producción para procesar más de 1000 tablas.
Smolder
Smolder proporciona un origen de datos SQL de Apache Spark™ para cargar datos de EHR desde formatos de mensajes HL7v2. Además, Smolder proporciona funciones auxiliares que se pueden usar en un DataFrame de Spark SQL para analizar el texto de los mensajes HL7 y para extraer segmentos, campos y subcampos de un mensaje.
Geoscan
Estimador de ML de Apache Spark para clustering espacial basado en densidad mediante índices espaciales jerárquicos hexagonales.
Migrate
Herramienta para ayudar a los clientes a migrar artefactos entre espacios de trabajo de Databricks. Esto permite a los clientes exportar configuraciones y artefactos de código como copia de seguridad o como parte de una migración entre diferentes espacios de trabajo.
Código fuente en GitHub
Más información: AWS | Azure
Generador de datos
Genere datos relevantes rápidamente para sus proyectos. El generador de datos de Databricks se puede usar para generar grandes conjuntos de datos simulados/sintéticos para pruebas, POC y otros usos.
DeltaOMS
Recopilación centralizada de registros de transacciones Delta para el análisis de metadatos y métricas operativas en tu Lakehouse.
Integración con Splunk
Complemento para Splunk, una app que permite a los usuarios de Splunk Enterprise y Splunk Cloud ejecutar consultas y realizar acciones, como ejecutar notebooks y trabajos, en Databricks.
DiscoverX
DiscoverX automatiza las tareas de administración que requieren inspeccionar o aplicar operaciones a un gran número de activos de Lakehouse.
brickster
{brickster} es el kit de herramientas de R para Databricks, que incluye lo siguiente:
- Wrappers para las API de Databricks (p. ej., db_cluster_list, db_volume_read)
- Explorar los activos del espacio de trabajo a través del panel de conexiones de RStudio (open_workspace())
- Expone el databricks-sql-connector a través de {reticulate} (documentación)
- REPL interactivo de Databricks
DBX
Esta herramienta simplifica el proceso de lanzamiento y despliegue de trabajos en múltiples entornos. También ayuda a empaquetar tu proyecto y entregarlo a tu entorno de Databricks de forma versionada. Diseñado con un enfoque CLI-first, está creado para usarse activamente tanto en canalizaciones de CI/CD como parte de herramientas locales para la creación rápida de prototipos.
Tempo
El propósito de este proyecto es proporcionar una API para manipular series de tiempo sobre Apache Spark™. La funcionalidad incluye la creación de características mediante valores de tiempo desfasados, estadísticas móviles (media, promedio, suma, recuento, etc.), uniones AS OF, reducción de muestreo e interpolación. Esto se ha probado en datos históricos a escala de TB.
Plugin de PyLint
Este plugin extiende PyLint con comprobaciones de errores y problemas comunes en el código de Python, específicamente en el entorno de Databricks.
PyTester
PyTester es una forma potente de gestionar la configuración y el desmontaje de las pruebas en Python. Esta biblioteca ofrece un conjunto de fixtures para ayudarte a escribir pruebas de integración para Databricks.
Conector de Java para Delta Sharing
El conector de Java sigue el protocolo Delta Sharing para leer tablas compartidas desde un servidor Delta Sharing. Para reducir y limitar aún más los costos de egreso del lado del proveedor de datos, implementamos una caché persistente para reducir y limitar los costos de egreso del lado del proveedor de datos mediante la eliminación de las lecturas innecesarias.
Overwatch
Analiza todos tus trabajos y clústeres en todos tus espacios de trabajo para identificar rápidamente dónde puedes hacer los mayores ajustes para obtener mejoras de rendimiento y ahorros de costos.
UCX
UCX es un kit de herramientas para habilitar Unity Catalog (UC) en su área de trabajo de Databricks. UCX proporciona comandos y flujos de trabajo para migrar tablas y vistas a UC. UCX permite reescribir paneles, trabajos y notebooks para usar los activos de datos migrados en UC. Y hay muchas más características.
Ten en cuenta que todos los proyectos en la cuenta https://github.com/databrickslabs se proporcionan únicamente para tu exploración y no cuentan con el soporte oficial de Databricks con acuerdos de nivel de servicio (SLA). Se proporcionan TAL CUAL y no ofrecemos ninguna garantía de ningún tipo. Cualquier problema que se descubra al usar estos proyectos puede registrarse como un issue de GitHub en el repositorio. Se revisarán a medida que el tiempo lo permita, pero no existen SLA formales para el soporte de GitHub.

