Databricks Lakehouse Monitoring le permite monitorear todos sus pipelines de datos, desde los datos y las características hasta los modelos de ML, sin herramientas ni complejidad adicionales. Integrado en Unity Catalog, puede hacer un seguimiento de la calidad junto con la gobernanza y obtener información detallada sobre el rendimiento de sus activos de datos e IA. Lakehouse Monitoring es totalmente sin servidor, por lo que nunca tendrá que preocuparse por la infraestructura ni por ajustar la configuración de computación.
Nuestro enfoque único y unificado para el monitoreo facilita el seguimiento de la calidad, el diagnóstico de errores y la búsqueda de soluciones directamente en la Databricks Data Intelligence Platform. Siga leyendo para descubrir cómo usted y su equipo pueden aprovechar al máximo Lakehouse Monitoring.

Imagine este escenario: su canalización de datos parece funcionar sin problemas, pero luego descubre que la calidad de los datos se ha degradado silenciosamente con el tiempo. Es un problema común entre los ingenieros de datos: todo parece estar bien hasta que alguien se queja de que los datos son inutilizables.
Para quienes entrenan modelos de ML, hacer un seguimiento del rendimiento de los modelos de producción y comparar las diferentes versiones es un desafío constante. En consecuencia, los equipos se enfrentan a modelos que se vuelven obsoletos en producción y tienen la tarea de revertirlos.
La ilusión de pipelines funcionales que enmascaran una calidad de datos deficiente dificulta que los equipos de datos e IA cumplan los SLA de entrega y calidad. Lakehouse Monitoring puede ayudarlo a descubrir proactivamente problemas de calidad antes de que los procesos posteriores se vean afectados. Puede anticiparse a posibles problemas, garantizando que los pipelines funcionen sin problemas y que los modelos de machine learning sigan siendo eficaces a lo largo del tiempo. ¡No más semanas dedicadas a la depuración y a revertir cambios!

Con Lakehouse Monitoring, puede monitorear las propiedades estadísticas y la calidad de todas sus tablas con un solo clic. Generamos automáticamente un panel que visualiza la calidad de los datos para cualquier tabla Delta en Unity Catalog. Nuestro producto computa un amplio conjunto de métricas de forma predeterminada. Por ejemplo, si está monitoreando una tabla de inferencia, proporcionamos métricas de rendimiento del modelo, como R-cuadrado, exactitud, etc. Por otro lado, para quienes monitorean las tablas de ingeniería de datos, proporcionamos métricas de distribución, que incluyen la media, mín./máx., etc. Además de las métricas integradas, también puede configurar métricas personalizadas (específicas del negocio) que quiere que calculemos. Lakehouse Monitoring actualiza las métricas y mantiene el panel actualizado según la programación que especifique. Todas las métricas se almacenan en tablas Delta para permitir análisis ad-hoc, visualizaciones personalizadas y alertas.
Puede configurar el monitoreo en cualquier tabla de su propiedad mediante la UI de Databricks (AWS | Azure) o la API (AWS | Azure). Seleccione el tipo de perfil de monitoreo que desea en sus pipelines de datos o modelos:
Puede elegir con qué frecuencia desea que se ejecute nuestro servicio de monitoreo. Muchos clientes eligen una programación diaria o por hora para garantizar la actualidad y relevancia de sus datos. Si desea que el monitoreo se ejecute automáticamente al final de la ejecución de la canalización de datos, también puede llamar a la API para actualizar el monitoreo directamente en su Workflow.
Para personalizar aún más el monitoreo, puede establecer expresiones de división (slicing expressions) para monitorear subconjuntos de características de la tabla, además de la tabla en su conjunto. Puede dividir cualquier columna específica, por ejemplo, origen étnico o género, para generar métricas de equidad y sesgo. También puede definir métricas personalizadas basadas en columnas de su tabla principal o sobre las métricas predeterminadas. Consulte cómo usar las métricas personalizadas (AWS | Azure) para obtener más detalles.
Como parte de una actualización, escanearemos sus tablas y modelos para generar métricas que realicen un seguimiento de la calidad a lo largo del tiempo. Calculamos dos tipos de métricas que almacenamos en tablas Delta para usted:
Para visualizar todas estas métricas, Lakehouse Monitoring proporciona un panel de control listo para usar que es totalmente personalizable. También puede crear alertas de Databricks SQL (AWS | Azure) para recibir notificaciones sobre infracciones de umbral, cambios en la distribución de datos y desviaciones de su tabla de referencia.
Ya sea que esté monitoreando tablas de datos o modelos, configurar alertas sobre nuestras métricas computadas le notifica sobre posibles errores y ayuda a prevenir riesgos posteriores.
Puede recibir una alerta si el porcentaje de nulos y ceros supera un determinado umbral o sufre cambios con el tiempo. Si está monitoreando modelos, puede recibir una alerta si las métricas de rendimiento del modelo, como la toxicidad o la deriva, caen por debajo de ciertos umbrales de calidad.
Ahora, con la información derivada de nuestras alertas, puede identificar si un modelo necesita reentrenamiento o si hay problemas potenciales con sus datos de origen. Después de que haya solucionado los problemas, puede llamar manualmente a la API de actualización para obtener las métricas más recientes de su pipeline actualizado. Lakehouse Monitoring lo ayuda a tomar medidas proactivas para mantener la salud general y la confiabilidad de sus datos y modelos.

Lakehouse Monitoring ofrece una solución de calidad totalmente gestionada para aplicaciones de generación aumentada por recuperación (RAG). Analiza los resultados de su aplicación en busca de contenido tóxico o inseguro. Puede diagnosticar rápidamente errores relacionados con, p. ej., canalizaciones de datos obsoletas o comportamiento inesperado del modelo. Lakehouse Monitoring se encarga de la gestión completa de los pipelines de monitoreo, lo que permite a los desarrolladores centrarse en sus aplicaciones.

Estamos entusiasmados con el futuro de Lakehouse Monitoring y esperamos poder dar soporte a lo siguiente:
Para obtener más información sobre el monitoreo de Lakehouse y comenzar hoy mismo, visite la documentación de nuestro producto (AWS | Azure). Además, póngase al día con los anuncios recientes sobre la creación de aplicaciones RAG de alta calidad y únase a nuestro webinar de GenAI.
Data Science e ML
October 31, 2023/9 min de leitura

