Los clientes esperan respuestas instantáneas en cada interacción, ya sea una recomendación generada en milisegundos, un cargo fraudulento bloqueado antes de que se procese o un resultado de búsqueda que le parezca inmediato al usuario. A escala, ofrecer estas experiencias depende de los sistemas de servicio de modelos que se mantienen rápidos, estables y predecibles, incluso bajo una carga sostenida y desigual.
A medida que el tráfico aumenta a decenas o cientos de miles de solicitudes por segundo, muchos equipos se enfrentan al mismo conjunto de desafíos. La latencia se vuelve inconsistente, los costos de infraestructura aumentan y los sistemas requieren un ajuste constante para manejar los picos y las caídas de la demanda. Las fallas también se vuelven más difíciles de diagnosticar a medida que se unen más componentes, lo que aleja a los equipos de la mejora de los modelos y los obliga a centrarse en mantener los sistemas de producción en funcionamiento.
En esta publicación se explica cómo el servicio de modelos en Databricks admite cargas de trabajo en tiempo real con un alto QPS y se describen las mejores prácticas concretas que se pueden aplicar para lograr una baja latencia, un alto rendimiento y un desempeño predecible en la producción.
Databricks Model Serving proporciona una infraestructura de servicio totalmente administrada y escalable directamente dentro de su lakehouse de Databricks. Simplemente, toma un modelo existente de tu registro de modelos, despliégalo y obtén un endpoint REST en una infraestructura administrada que sea altamente escalable y esté optimizada para un tráfico de QPS alto.
El servicio de modelos de Databricks está optimizado para cargas de trabajo de misión crítica con un QPS alto:
Databricks Model Serving permite a nuestro equipo implementar modelos de machine learning con la confiabilidad y la escala necesarias para aplicaciones en tiempo real. Está diseñado para manejar cargas de trabajo de alto QPS mientras maximiza la utilización del hardware. Además, Databricks ofrece una solución de Feature Store de última generación con búsquedas superrápidas necesarias para dichas cargas de trabajo. Con estas capacidades, nuestros ingenieros de ML pueden centrarse en lo que importa: perfeccionar el rendimiento del modelo y mejorar la experiencia del usuario. — Bojan Babic, ingeniero de investigación, You.com
Con esta base establecida, el siguiente paso es optimizar sus endpoints, modelos y aplicaciones cliente para lograr de manera consistente un alto rendimiento y una baja latencia, especialmente a medida que aumenta el tráfico. Las siguientes prácticas recomendadas respaldan implementaciones de clientes reales que ejecutan de millones a miles de millones de inferencias todos los días.
Consulta nuestra guía de prácticas recomendadas para obtener más detalles.
Un primer paso clave para garantizar que la capa de red esté optimizada para un alto rendimiento/QPS y una baja latencia. El servicio de modelos lo hace por usted mediante endpoints con optimización de ruta. Cuando habilita la optimización de ruta en un endpoint, el servicio de modelos de Databricks optimiza la red y el enrutamiento para las solicitudes de inferencia, lo que resulta en una comunicación más rápida y directa entre su cliente y el modelo. Esto reduce considerablemente la cantidad de tiempo que tarda una solicitud en llegar al modelo y es especialmente útil para aplicaciones de baja latencia, como los sistemas de recomendación, la búsqueda y la detección de fraudes.
En escenarios de alto rendimiento, reducir la complejidad del modelo, descargar el procesamiento del endpoint de servicio y elegir los objetivos de simultaneidad correctos ayuda a que su endpoint escale a grandes volúmenes de solicitudes con la cantidad justa de computación necesaria. De esta manera, sus endpoints son rentables, pero aun así pueden escalar para alcanzar los objetivos de rendimiento.
Con Databricks Model Serving, podemos manejar cargas de trabajo de alto QPS, como la personalización y las recomendaciones, en tiempo real. Les da a nuestras marcas la escala y la velocidad necesarias para ofrecer experiencias de contenido personalizadas a nuestros millones de lectores. — Oscar Celma, vicepresidente sénior de ciencia de datos y análisis de productos en Conde Nast
La optimización del código del lado del cliente garantiza que las solicitudes se procesen rápidamente y que tus instancias de computación de endpoint se utilicen en su totalidad, lo que se traduce en un mejor rendimiento de QPS, un ahorro de costos y una menor latencia.
Agrupe las solicitudes en lotes al llamar a los endpoints de Databricks Model Serving.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Produto
12 de junio de 2024/11 min de lectura
IA
7 de enero de 2025/8 min de lectura

