26 de julio de 2024

Un marco para la predicción multimodelo en Databricks

por Ryuta Yoshimatsu , Puneet Jain, Tristan Nixon, Sathish Gangichetty, Michael Shtelma y Bryan Smith

Introducción

La previsión de series temporales es la base de la gestión de inventarios y la demanda en la mayoría de las empresas. Utilizando datos de períodos pasados junto con condiciones anticipadas, las empresas pueden predecir ingresos y unidades vendidas, lo que les permite asignar recursos para satisfacer la demanda esperada. Dada la naturaleza fundamental de este trabajo, las empresas exploran constantemente formas de mejorar la precisión de las previsiones, lo que les permite destinar los recursos adecuados al lugar adecuado en el momento adecuado, minimizando al mismo tiempo los compromisos de capital.

El desafío para la mayoría de las organizaciones es la amplia gama de técnicas de previsión a su disposición. Las técnicas estadísticas clásicas, los modelos aditivos generalizados, los enfoques basados en machine learning y deep learning, y ahora los transformadores generativos de IA preentrenados, ofrecen a las organizaciones un número abrumador de opciones, algunas de las cuales funcionan mejor en algunos escenarios que en otros.

Si bien la mayoría de los creadores de modelos afirman haber mejorado la precisión de las previsiones frente a los conjuntos de datos de referencia, la realidad es que el conocimiento del dominio y los requisitos empresariales suelen reducir el número de opciones de modelos a unas pocas y luego solo la aplicación práctica y la evaluación frente a los conjuntos de datos de una organización pueden determinar cuál funciona mejor. Y lo que es "mejor" a menudo varía de una unidad de previsión a otra e incluso con el tiempo, lo que obliga a las organizaciones a realizar evaluaciones comparativas continuas entre técnicas para determinar qué funciona mejor en cada momento.

En este blog, presentaremos el framework Many Model Forecasting (MMF) para la evaluación comparativa de modelos de previsión. MMF permite a los usuarios entrenar y predecir utilizando múltiples modelos de previsión a escala en cientos de miles a millones de series temporales en su granularidad más fina. Con soporte para preparación de datos, backtesting, validación cruzada, puntuación y despliegue, el framework permite a los equipos de previsión implementar una solución completa de generación de previsiones utilizando modelos clásicos y de vanguardia con un énfasis en la configuración sobre el código, minimizando el esfuerzo necesario para introducir nuevos modelos y capacidades en sus procesos. Hemos descubierto en numerosas implementaciones de clientes que este framework:

Reduce el tiempo de comercialización: Con muchos modelos bien establecidos y de vanguardia ya integrados, los usuarios pueden evaluar y desplegar soluciones rápidamente.
Mejora la precisión de las previsiones: A través de una evaluación exhaustiva y una selección de modelos detallada, MMF permite a las organizaciones descubrir eficientemente enfoques de previsión que proporcionan una mayor precisión.
Permite la preparación para producción: Al adherirse a las mejores prácticas de MLOps, MMF se integra de forma nativa con Databricks, garantizando un despliegue sin problemas.

Accede a más de 40 modelos utilizando el framework

El framework Many Model Forecasting (MMF) se entrega como un repositorio de Github con código fuente totalmente accesible, transparente y comentado. Las organizaciones pueden utilizar el framework tal cual o extenderlo para añadir funcionalidades necesarias para su organización específica.

MMF incluye soporte integrado para más de 40 modelos a través de la integración de algunas de las bibliotecas de previsión de código abierto más populares disponibles en la actualidad, como statsforecast, neuralforecast, sktime, r fable, chronos, moirai y moment. Y a medida que nuestros clientes exploren modelos más nuevos, tenemos la intención de dar soporte a aún más.

Con estos modelos ya integrados en el framework, los usuarios pueden eliminar el desarrollo redundante de preparación de datos y entrenamiento de modelos específico para cada modelo y centrarse en su lugar en la evaluación y el despliegue, acelerando significativamente el tiempo de comercialización. Esto es particularmente ventajoso para equipos de científicos de datos e ingenieros de machine learning con recursos limitados y para partes interesadas del negocio ansiosas por obtener resultados.

Utilizando MMF, los equipos de previsión pueden evaluar múltiples modelos simultáneamente, permitiendo que la lógica integrada y personalizada seleccione el mejor modelo para cada serie temporal y mejorando la precisión general de la solución de previsión. Desplegado en un clúster de Databricks, MMF aprovecha todos los recursos que se le ponen a disposición para acelerar el entrenamiento y la evaluación de modelos a través de paralelismo automatizado. Los equipos simplemente configuran los recursos que desean utilizar para el ejercicio de previsión y MMF se encarga del resto.

Enfócate en los resultados del modelo y las evaluaciones comparativas

La clave de MMF es la estandarización de los resultados del modelo. Al ejecutar previsiones, MMF genera dos tablas de UC: evaluation_output y scoring_output. La tabla evaluation_output (Figura 1) almacena todos los resultados de evaluación de cada período de backtesting, en todas las series temporales y modelos, proporcionando una visión general completa del rendimiento de cada modelo. Esto incluye previsiones junto con los valores reales, lo que permite a los usuarios construir métricas personalizadas que se alinean con las necesidades específicas del negocio. Si bien MMF ofrece varias métricas listas para usar, como MAE, MSE, RMSE, MAPE y SMAPE, la flexibilidad para crear métricas personalizadas facilita la evaluación detallada y la selección o el ensamblaje de modelos, garantizando resultados de previsión óptimos.

Resultados de evaluación capturados automáticamente en la tabla evaluation_ouput por MMF

La segunda tabla, scoring_output (Figura 2), contiene las previsiones para cada serie temporal de cada modelo. Utilizando los resultados de evaluación completos almacenados en la tabla evaluation_output, puedes seleccionar las previsiones del modelo de mejor rendimiento o una combinación de modelos. Al elegir las previsiones finales de un conjunto de modelos competidores o un ensamblaje de modelos seleccionados, puedes lograr una precisión y estabilidad superiores en comparación con depender de un solo modelo, mejorando así la precisión y estabilidad generales de tu solución de previsión a gran escala.

Salida de previsión capturada automáticamente en la tabla scoring_output por MMF

Facilita la gestión de modelos a través de la automatización

Construido sobre la plataforma Databricks, MMF se integra perfectamente con sus capacidades de Databricks, proporcionando registro automatizado de parámetros, métricas agregadas y modelos (para modelos globales y fundacionales) en MLflow (Figura 3). Asegurado como parte de Unity Catalog de Databricks, los equipos de previsión pueden emplear control de acceso detallado y gestión adecuada de sus modelos, no solo de sus resultados.

Registro automatizado de modelos proporcionado por MMF y MLFlow

Si un equipo necesita reutilizar un modelo (como es común en escenarios de machine learning), puede simplemente cargarlo en su clúster utilizando el método load_model de MLflow o desplegarlo detrás de un endpoint en tiempo real utilizando Databricks Model Serving de Databricks (Figura 4). Con los modelos fundacionales de series temporales alojados en Model Serving, puedes generar previsiones multietapa con antelación en cualquier momento dado, siempre que proporciones el historial con la resolución correcta. Esta capacidad mejora significativamente las aplicaciones en previsión bajo demanda, monitorización en tiempo real y seguimiento.

Ejemplo de endpoint que proporciona generación de resultados de previsión en tiempo real desde un modelo alojado en model serving

Empieza ahora

En Databricks, la generación de previsiones es uno de los casos de uso más populares entre los clientes. La naturaleza fundamental de la previsión para tantos procesos empresariales significa que las organizaciones buscan constantemente mejoras en la precisión de las previsiones.

Con este framework, esperamos proporcionar a los equipos de pronóstico un acceso fácil a la funcionalidad más escalable, robusta y extensa necesaria para respaldar su trabajo. A través del MMF, los equipos ahora pueden centrarse en generar resultados y menos en todo el trabajo de desarrollo requerido para evaluar nuevos enfoques y prepararlos para la producción.

Reconocimientos

Agradecemos a los equipos detrás de statsforecast y neuralforecast (Nixtla), r fable, sktime, chronos, moirai, moment y timesfm por sus contribuciones a las comunidades de código abierto, que nos han brindado acceso a sus excelentes herramientas.

Consulta el repositorio MMF y las notebooks de ejemplo que muestran cómo las organizaciones pueden empezar a usarlo dentro de su entorno Databricks.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs