Lakehouse Monitoring: una solución unificada para la calidad de los datos y la IA

Publicado: 12 de diciembre de 2023

por Jacqueline Li, Alkis Polyzotis y Kasey Uhlenhuth

Introducción

Databricks Lakehouse Monitoring le permite monitorear todos sus pipelines de datos, desde los datos y las características hasta los modelos de ML, sin herramientas ni complejidad adicionales. Integrado en Unity Catalog, puede hacer un seguimiento de la calidad junto con la gobernanza y obtener información detallada sobre el rendimiento de sus activos de datos e IA. Lakehouse Monitoring es totalmente sin servidor, por lo que nunca tendrá que preocuparse por la infraestructura ni por ajustar la configuración de computación.

Nuestro enfoque único y unificado para el monitoreo facilita el seguimiento de la calidad, el diagnóstico de errores y la búsqueda de soluciones directamente en la Databricks Data Intelligence Platform. Siga leyendo para descubrir cómo usted y su equipo pueden aprovechar al máximo Lakehouse Monitoring.

example-dashboard

¿Por qué Lakehouse Monitoring?

Imagine este escenario: su canalización de datos parece funcionar sin problemas, pero luego descubre que la calidad de los datos se ha degradado silenciosamente con el tiempo. Es un problema común entre los ingenieros de datos: todo parece estar bien hasta que alguien se queja de que los datos son inutilizables.

Para quienes entrenan modelos de ML, hacer un seguimiento del rendimiento de los modelos de producción y comparar las diferentes versiones es un desafío constante. En consecuencia, los equipos se enfrentan a modelos que se vuelven obsoletos en producción y tienen la tarea de revertirlos.

La ilusión de pipelines funcionales que enmascaran una calidad de datos deficiente dificulta que los equipos de datos e IA cumplan los SLA de entrega y calidad. Lakehouse Monitoring puede ayudarlo a descubrir proactivamente problemas de calidad antes de que los procesos posteriores se vean afectados. Puede anticiparse a posibles problemas, garantizando que los pipelines funcionen sin problemas y que los modelos de machine learning sigan siendo eficaces a lo largo del tiempo. ¡No más semanas dedicadas a la depuración y a revertir cambios!

Cómo funciona

lakehouse-flowchart

Con Lakehouse Monitoring, puede monitorear las propiedades estadísticas y la calidad de todas sus tablas con un solo clic. Generamos automáticamente un panel que visualiza la calidad de los datos para cualquier tabla Delta en Unity Catalog. Nuestro producto computa un amplio conjunto de métricas de forma predeterminada. Por ejemplo, si está monitoreando una tabla de inferencia, proporcionamos métricas de rendimiento del modelo, como R-cuadrado, exactitud, etc. Por otro lado, para quienes monitorean las tablas de ingeniería de datos, proporcionamos métricas de distribución, que incluyen la media, mín./máx., etc. Además de las métricas integradas, también puede configurar métricas personalizadas (específicas del negocio) que quiere que calculemos. Lakehouse Monitoring actualiza las métricas y mantiene el panel actualizado según la programación que especifique. Todas las métricas se almacenan en tablas Delta para permitir análisis ad-hoc, visualizaciones personalizadas y alertas.

Configuración del monitoreo

Puede configurar el monitoreo en cualquier tabla de su propiedad mediante la UI de Databricks (AWS | Azure) o la API (AWS | Azure). Seleccione el tipo de perfil de monitoreo que desea en sus pipelines de datos o modelos:

Snapshot Profile: si desea monitorear la tabla completa a lo largo del tiempo o comparar los datos actuales con versiones anteriores o una línea de base conocida, un Snapshot Profile funcionará mejor. Luego, calcularemos las métricas sobre todos los datos de la tabla y las actualizaremos cada vez que se actualice el monitor.
Perfil de series temporales: Si su tabla contiene marcas de tiempo de eventos y desea comparar las distribuciones de datos en ventanas de tiempo (por hora, día, semana, etc.), un perfil de series temporales funcionará mejor. Le recomendamos que active Change Data Feed (AWS | Azure) para que pueda obtener un procesamiento incremental cada vez que se actualice el monitor. Nota: necesitará una columna de marca de tiempo para configurar este perfil.
Perfil de registro de inferencia: Si desea comparar el rendimiento del modelo a lo largo del tiempo o realizar un seguimiento de cómo cambian las entradas y predicciones del modelo con el tiempo, un perfil de inferencia será la mejor opción. Necesitará una tabla de inferencia (AWS | Azure) que contenga las entradas y salidas de un modelo de clasificación o regresión de ML. También puede incluir opcionalmente etiquetas de verdad fundamental para calcular la deriva y otros metadatos, como información demográfica, para obtener métricas de equidad y sesgo.

Puede elegir con qué frecuencia desea que se ejecute nuestro servicio de monitoreo. Muchos clientes eligen una programación diaria o por hora para garantizar la actualidad y relevancia de sus datos. Si desea que el monitoreo se ejecute automáticamente al final de la ejecución de la canalización de datos, también puede llamar a la API para actualizar el monitoreo directamente en su Workflow.

Para personalizar aún más el monitoreo, puede establecer expresiones de división (slicing expressions) para monitorear subconjuntos de características de la tabla, además de la tabla en su conjunto. Puede dividir cualquier columna específica, por ejemplo, origen étnico o género, para generar métricas de equidad y sesgo. También puede definir métricas personalizadas basadas en columnas de su tabla principal o sobre las métricas predeterminadas. Consulte cómo usar las métricas personalizadas (AWS | Azure) para obtener más detalles.

Visualizar la calidad

Como parte de una actualización, escanearemos sus tablas y modelos para generar métricas que realicen un seguimiento de la calidad a lo largo del tiempo. Calculamos dos tipos de métricas que almacenamos en tablas Delta para usted:

Métricas de perfil: Proporcionan estadísticas de resumen de tus datos. Por ejemplo, puedes realizar un seguimiento del número de nulos y ceros en tu tabla o de las métricas de precisión de tu modelo. Consulta el esquema de la tabla de métricas de perfil (AWS | Azure) para obtener más información.
Métricas de deriva: Proporcionan métricas de deriva estadísticas que te permiten comparar con tus tablas de referencia. Consulta el esquema de la tabla de métricas de deriva (AWS | Azure) para obtener más información.

Para visualizar todas estas métricas, Lakehouse Monitoring proporciona un panel de control listo para usar que es totalmente personalizable. También puede crear alertas de Databricks SQL (AWS | Azure) para recibir notificaciones sobre infracciones de umbral, cambios en la distribución de datos y desviaciones de su tabla de referencia.

Configuración de alertas

Ya sea que esté monitoreando tablas de datos o modelos, configurar alertas sobre nuestras métricas computadas le notifica sobre posibles errores y ayuda a prevenir riesgos posteriores.

Puede recibir una alerta si el porcentaje de nulos y ceros supera un determinado umbral o sufre cambios con el tiempo. Si está monitoreando modelos, puede recibir una alerta si las métricas de rendimiento del modelo, como la toxicidad o la deriva, caen por debajo de ciertos umbrales de calidad.

Ahora, con la información derivada de nuestras alertas, puede identificar si un modelo necesita reentrenamiento o si hay problemas potenciales con sus datos de origen. Después de que haya solucionado los problemas, puede llamar manualmente a la API de actualización para obtener las métricas más recientes de su pipeline actualizado. Lakehouse Monitoring lo ayuda a tomar medidas proactivas para mantener la salud general y la confiabilidad de sus datos y modelos.

lakehouse-monitoring-alert

Monitorear la calidad de los LLM

Lakehouse Monitoring ofrece una solución de calidad totalmente gestionada para aplicaciones de generación aumentada por recuperación (RAG). Analiza los resultados de su aplicación en busca de contenido tóxico o inseguro. Puede diagnosticar rápidamente errores relacionados con, p. ej., canalizaciones de datos obsoletas o comportamiento inesperado del modelo. Lakehouse Monitoring se encarga de la gestión completa de los pipelines de monitoreo, lo que permite a los desarrolladores centrarse en sus aplicaciones.

quality-dashboard

¿Qué es lo que viene?

Estamos entusiasmados con el futuro de Lakehouse Monitoring y esperamos poder dar soporte a lo siguiente:

Clasificación de datos/Detección de PII: regístrese en nuestra Private Preview aquí.
Expectativas para aplicar automáticamente las reglas de calidad de los datos y organizar sus canalizaciones
Una vista holística de sus monitores para resumir la calidad y la salud en todas sus tablas

Para obtener más información sobre el monitoreo de Lakehouse y comenzar hoy mismo, visite la documentación de nuestro producto (AWS | Azure). Además, póngase al día con los anuncios recientes sobre la creación de aplicaciones RAG de alta calidad y únase a nuestro webinar de GenAI.

¿Qué sigue?

31 de octubre de 2023/9 min de lectura

Anunciando as métricas de LLM-como-juiz do MLflow 2.8 e as Melhores Práticas para Avaliação de LLM de Aplicações RAG, Parte 2

Creating High Quality RAG Applications with Databricks

6 de diciembre de 2023/7 min de lectura