Presentación del precio basado en tokens para la evaluación de GenAI de MLflow
por Avesh Singh, Euirim Choi, Samraj Moorjani y Yuki Watanabe
Los agentes de GenAI de alta calidad deben evaluarse continuamente. Pero cuando se escala las pruebas, los costos pueden superar su presupuesto. Con MLflow en Databricks, los equipos pueden probar agentes en muchas métricas sin que el costo se convierta en una barrera.
A medida que los agentes pasan del prototipo a la producción, el éxito depende de la comprensión de su dominio (por ejemplo, contratos, atención al cliente, presentaciones), no solo de los puntos de referencia generales. Los jueces predefinidos de MLflow ayudan evaluando la corrección, la fidelidad, la relevancia, la seguridad y la recuperación automáticamente en lugar de depender de la ingeniería de prompts.
Los clientes nos pidieron que analizáramos cómo podemos mejorar los costos de evaluación a escala de producción. Por lo tanto, hoy lanzamos precios basados en tokens para los jueces en lugar de pagar por bloques fijos.
Ejemplo para 10,000 rastreos
Antes
Ahora
El enfoque basado en tokens permite una reducción drástica de los costos y una transparencia total sobre cómo se calculan.
Crear prompts de evaluación efectivos significa equilibrar la precisión con la eficiencia de tokens, particularmente para aplicaciones específicas del dominio. Los equipos pasan semanas ajustándolos para finanzas, atención médica o documentación técnica, y cada grupo repite el trabajo.
Para ayudar, estamos publicando como código abierto los prompts de evaluación detrás de MLflow GenAI. Han sido refinados en contextos específicos de la industria como finanzas, atención médica, documentación técnica y seguridad para funcionar bien en escenarios del mundo real. Úselos tal cual o adáptelos para sus casos de uso específicos.
Puede explorar nuestros prompts de calidad de producción aquí.
Estos prompts han sido validados en rigurosos puntos de referencia que incluyen:
Nuestros jueces incorporados son potentes, pero algunas organizaciones necesitan control total. Ahora, puede conectar su propio modelo (OpenAI, Anthropic o su modelo ajustado) para la evaluación sin costo adicional. Solo paga por el uso del modelo.
Esto le permite:
La evaluación rentable no significa nada si no puede escalar con sus necesidades de producción. La evaluación de MLflow GenAI en Databricks proporciona:
Los nuevos precios y los prompts de código abierto están disponibles inmediatamente para todos los clientes de Databricks. Así es como puede empezar:
Al reducir los costos en un 95% y abrir código para prompts probados en producción, hacemos que la evaluación sea accesible a escala. Ya sea en finanzas, atención médica o CX, puede monitorear continuamente la calidad del agente sin salirse de su presupuesto.
¿Listo para transformar su estrategia de evaluación de agentes? Comience gratis o explore nuestra documentación.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.