Databricks Labs

Código fuente en GitHub →

Kasal

Kasal es una forma interactiva y low-code de crear e implementar agentes de IA en la plataforma de Databricks.

Código fuente en GitHub →

Lakebridge

Lakebridge es la plataforma de migración de Databricks, diseñada para proporcionar a las empresas una solución integral de extremo a extremo para modernizar los data warehouses heredados y los sistemas ETL. Lakebridge admite una amplia gama de plataformas de origen —como Teradata, Oracle, Snowflake, SQL Server, DataStage y más— y automatiza cada etapa del proceso de migración, desde el descubrimiento y la evaluación hasta la conversión de código, el movimiento de datos y la validación, lo que garantiza una transición rápida y de bajo riesgo para las organizaciones que buscan desbloquear la innovación y la eficiencia en su patrimonio de datos.

Blog →

Otros proyectos

Databricks MCP

Una colección de servidores MCP para ayudar a los agentes de IA a obtener datos empresariales de Databricks y automatizar las acciones comunes de los desarrolladores en Databricks.

App de agente conversacional

Aplicación con una interfaz de chat potenciada por las API de conversación de Databricks Genie, diseñada específicamente para ejecutarse como una Databricks App.

Aplicación de chatbot de asistente de conocimiento

Ejemplo de aplicación de chatbot Asistente de conocimiento de Databricks.

Aplicación de registro de características

La app ofrece una interfaz fácil de usar para explorar las características existentes en Unity Catalog. Además, los usuarios pueden generar código para crear especificaciones de características y conjuntos de entrenamiento para entrenar modelos de machine learning e implementar características como endpoints de servicio de características.

Mosaic

Mosaic es una herramienta que simplifica la implementación de pipelines de datos geoespaciales escalables al unir bibliotecas geoespaciales de código abierto comunes y Apache Spark™️. Mosaic también ofrece un conjunto de ejemplos y prácticas recomendadas para casos de uso geoespaciales comunes. Proporciona APIs para expresiones ST_ y expresiones GRID_, y es compatible con sistemas de índice de cuadrícula como H3 y British National Grid.

Fuentes de GitHub →

Blog →

DLT-META

Este framework facilita la ingesta de datos usando Delta Live Tables y metadatos. Con DLT-META, un solo ingeniero de datos puede administrar fácilmente miles de tablas. Varios clientes de Databricks tienen DLT-META en producción para procesar más de 1000 tablas.

Smolder

Smolder proporciona un origen de datos SQL de Apache Spark™ para cargar datos de EHR desde formatos de mensajes HL7v2. Además, Smolder proporciona funciones auxiliares que se pueden usar en un DataFrame de Spark SQL para analizar el texto de los mensajes HL7 y para extraer segmentos, campos y subcampos de un mensaje.

Código fuente en GitHub →
Más información →

Geoscan

Estimador de ML de Apache Spark para clustering espacial basado en densidad mediante índices espaciales jerárquicos hexagonales.

Migrate

Herramienta para ayudar a los clientes a migrar artefactos entre espacios de trabajo de Databricks. Esto permite a los clientes exportar configuraciones y artefactos de código como copia de seguridad o como parte de una migración entre diferentes espacios de trabajo.

Código fuente en GitHub
Más información: AWS | Azure

Generador de datos

Genere datos relevantes rápidamente para sus proyectos. El generador de datos de Databricks se puede usar para generar grandes conjuntos de datos simulados/sintéticos para pruebas, POC y otros usos.

DeltaOMS

Recopilación centralizada de registros de transacciones Delta para el análisis de metadatos y métricas operativas en tu Lakehouse.

Integración con Splunk

Complemento para Splunk, una app que permite a los usuarios de Splunk Enterprise y Splunk Cloud ejecutar consultas y realizar acciones, como ejecutar notebooks y trabajos, en Databricks.

DiscoverX

DiscoverX automatiza las tareas de administración que requieren inspeccionar o aplicar operaciones a un gran número de activos de Lakehouse.

Fuentes de Github →
Documentación →
Blog →

brickster

{brickster} es el kit de herramientas de R para Databricks, que incluye lo siguiente:

Wrappers para las API de Databricks (p. ej., db_cluster_list, db_volume_read)
Explorar los activos del espacio de trabajo a través del panel de conexiones de RStudio (open_workspace())
Expone el databricks-sql-connector a través de {reticulate} (documentación)
REPL interactivo de Databricks

DBX

Esta herramienta simplifica el proceso de lanzamiento y despliegue de trabajos en múltiples entornos. También ayuda a empaquetar tu proyecto y entregarlo a tu entorno de Databricks de forma versionada. Diseñado con un enfoque CLI-first, está creado para usarse activamente tanto en canalizaciones de CI/CD como parte de herramientas locales para la creación rápida de prototipos.

Fuentes de Github →
Documentación →
Blog →

Tempo

El propósito de este proyecto es proporcionar una API para manipular series de tiempo sobre Apache Spark™. La funcionalidad incluye la creación de características mediante valores de tiempo desfasados, estadísticas móviles (media, promedio, suma, recuento, etc.), uniones AS OF, reducción de muestreo e interpolación. Esto se ha probado en datos históricos a escala de TB.

Fuentes de GitHub →
Documentación →
Webinar →

Plugin de PyLint

Este plugin extiende PyLint con comprobaciones de errores y problemas comunes en el código de Python, específicamente en el entorno de Databricks.

Fuentes de Github →
Documentación →

PyTester

PyTester es una forma potente de gestionar la configuración y el desmontaje de las pruebas en Python. Esta biblioteca ofrece un conjunto de fixtures para ayudarte a escribir pruebas de integración para Databricks.

Código fuente en GitHub →
Documentación →

Conector de Java para Delta Sharing

El conector de Java sigue el protocolo Delta Sharing para leer tablas compartidas desde un servidor Delta Sharing. Para reducir y limitar aún más los costos de egreso del lado del proveedor de datos, implementamos una caché persistente para reducir y limitar los costos de egreso del lado del proveedor de datos mediante la eliminación de las lecturas innecesarias.

Código fuente en GitHub →

Overwatch

Analiza todos tus trabajos y clústeres en todos tus espacios de trabajo para identificar rápidamente dónde puedes hacer los mayores ajustes para obtener mejoras de rendimiento y ahorros de costos.

Más información →

UCX

UCX es un kit de herramientas para habilitar Unity Catalog (UC) en su área de trabajo de Databricks. UCX proporciona comandos y flujos de trabajo para migrar tablas y vistas a UC. UCX permite reescribir paneles, trabajos y notebooks para usar los activos de datos migrados en UC. Y hay muchas más características.

Fuentes de GitHub →