Ir al contenido principal
Producto

Cree agentes de alta calidad y específicos de dominio a un 95% menos de costo

Presentación del precio basado en tokens para la evaluación de GenAI de MLflow

por Avesh Singh, Euirim Choi, Samraj Moorjani y Yuki Watanabe

  • 95% de reducción en costos de evaluación: el nuevo precio basado en tokens en MLflow reduce los costos diarios de evaluación sin sacrificar el rigor.
  • Prompts de código abierto: Acceda a prompts de evaluación probados en producción que abarcan finanzas, atención médica, documentación técnica, seguridad y más.
  • Opciones de juez flexibles: utilice modelos optimizados integrados o traiga sus propios LLM para satisfacer las necesidades de cumplimiento, costos y específicas del dominio a escala.

Los agentes de GenAI de alta calidad deben evaluarse continuamente. Pero cuando se escala las pruebas, los costos pueden superar su presupuesto. Con MLflow en Databricks, los equipos pueden probar agentes en muchas métricas sin que el costo se convierta en una barrera.

Nuevo Modelo de Precios Basado en Tokens para Jueces Predefinidos

A medida que los agentes pasan del prototipo a la producción, el éxito depende de la comprensión de su dominio (por ejemplo, contratos, atención al cliente, presentaciones), no solo de los puntos de referencia generales. Los jueces predefinidos de MLflow ayudan evaluando la corrección, la fidelidad, la relevancia, la seguridad y la recuperación automáticamente en lugar de depender de la ingeniería de prompts.

Los clientes nos pidieron que analizáramos cómo podemos mejorar los costos de evaluación a escala de producción. Por lo tanto, hoy lanzamos precios basados en tokens para los jueces en lugar de pagar por bloques fijos.

  • Se le cobrará $0.15 por millón de tokens de entrada
  • Y $0.60 por millón de tokens de salida
  • En promedio, los costos se reducen aproximadamente un 95% sin pérdida de precisión

Ejemplo para 10,000 rastreos

Antes

  • $0.0175 por solicitud de juez
  • 5,000 tokens por solicitud
  • Resultado: 10,000 rastreos × 5 jueces = $875/día

Ahora

  • $0.15 por 1M de tokens de entrada
  • $0.60 por 1M de tokens de salida
  • Resultado: 10,000 rastreos × 5 jueces = $45/día
    • Entrada: 50,000 solicitudes × 4,000 tokens × $0.15/1M = $30
    • Salida: 50,000 solicitudes × 500 tokens × $0.60/1M = $15

El enfoque basado en tokens permite una reducción drástica de los costos y una transparencia total sobre cómo se calculan.

Los rastreos en MLflow pueden ser evaluados automáticamente por jueces de LLM, o por anotadores humanos.
Los rastreos en MLflow pueden ser evaluados automáticamente por jueces de LLM, o por anotadores humanos.

Open-Sourcing de Prompts de Evaluación Probados en Batalla

Crear prompts de evaluación efectivos significa equilibrar la precisión con la eficiencia de tokens, particularmente para aplicaciones específicas del dominio. Los equipos pasan semanas ajustándolos para finanzas, atención médica o documentación técnica, y cada grupo repite el trabajo.

Para ayudar, estamos publicando como código abierto los prompts de evaluación detrás de MLflow GenAI. Han sido refinados en contextos específicos de la industria como finanzas, atención médica, documentación técnica y seguridad para funcionar bien en escenarios del mundo real. Úselos tal cual o adáptelos para sus casos de uso específicos.

Puede explorar nuestros prompts de calidad de producción aquí.

Estos prompts han sido validados en rigurosos puntos de referencia que incluyen:

  • FinanceBench: Respuesta a preguntas sobre documentos financieros
  • HotPotQA: Razonamiento de múltiples saltos entre documentos
  • DocsQA: Comprensión de documentación técnica
  • RAGTruth: Precisión de la generación aumentada por recuperación
  • Natural Questions: Consultas de búsqueda reales de Google
  • HarmBench: Seguridad de LLM
  • Conjuntos de datos de clientes de Databricks (con permiso)

Más allá de los Jueces Incorporados: Traiga su Propio Modelo

Nuestros jueces incorporados son potentes, pero algunas organizaciones necesitan control total. Ahora, puede conectar su propio modelo (OpenAI, Anthropic o su modelo ajustado) para la evaluación sin costo adicional. Solo paga por el uso del modelo.

Esto le permite:

  • Cumplir con requisitos de cumplimiento específicos para la selección de modelos
  • Aprovechar los acuerdos empresariales existentes con proveedores de LLM
  • Utilizar modelos especializados entrenados con sus datos
  • Controlar todo su pipeline de evaluación

Listo para Producción desde el Primer Día

La evaluación rentable no significa nada si no puede escalar con sus necesidades de producción. La evaluación de MLflow GenAI en Databricks proporciona:

  • Integración con Unity Catalog: Governe rastreos y datos de evaluación con seguridad de nivel empresarial
  • Almacenamiento en Delta Lake: Almacene rastreos y datos de evaluación en formato Delta, lo que le permite crear paneles personalizados y pipelines de datos a partir de datos de rastreo y evaluación
  • Integración completa con MLflow: Vea rastreos y resultados de evaluación directamente en MLflow
  • Computación sin servidor: Pague solo por lo que usa, sin gestión de infraestructura

Comience Hoy Mismo

Los nuevos precios y los prompts de código abierto están disponibles inmediatamente para todos los clientes de Databricks. Así es como puede empezar:

  1. Para usuarios existentes de evaluación de MLflow: Sus jueces utilizarán automáticamente el nuevo modelo de precios, no se requiere ninguna acción
  2. Para nuevos usuarios: Comience con nuestra guía de inicio rápido. También puede explorar nuestros últimos cursos para comprender cómo crear agentes de IA en Databricks.
    1. Fundamentos de Agentes de IA: Un curso introductorio de 90 minutos sobre los conceptos básicos de los agentes de IA con ejemplos del mundo real de cómo crean valor para su organización.
    2. Comience con Agentes de IA: En poco más de dos horas, pase de la teoría a la creación y despliegue de su primer agente en Databricks.
  3. Para usuarios de MLflow OSS: actualice a MLflow 3.4.0+ para acceder a los prompts de código abierto

Un Nuevo Capítulo para la Evaluación de Aplicaciones GenAI

Al reducir los costos en un 95% y abrir código para prompts probados en producción, hacemos que la evaluación sea accesible a escala. Ya sea en finanzas, atención médica o CX, puede monitorear continuamente la calidad del agente sin salirse de su presupuesto.

¿Listo para transformar su estrategia de evaluación de agentes? Comience gratis o explore nuestra documentación.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.