Inferencia de LLM OSS más rápida y segura con caché de prompts.
por Pei-Lun Liao, Asfandyar Qureshi, Roshan Regula, Bruce Fontaine, James Thomas y Chenyang Yu
La inferencia de modelos de lenguaje grandes (LLM) a menudo implica prompts repetidos; piense en el mismo prompt de sistema o instrucción que aparece en miles de solicitudes. Reprocesar ese prefijo idéntico para cada llamada desperdicia ciclos de cómputo, infla la latencia y aumenta los costos.
La caché de prompts elimina esta redundancia, proporcionando:
La caché de prompts puede ser una técnica poderosa para mejorar la calidad de un modelo en dominios específicos sin comprometer el rendimiento de tokens del modelo. Las consultas pueden compartir un prompt de sistema grande específico del dominio, con el costo de cómputo de ese prompt compartido amortizado en todas esas consultas. Modelos de vanguardia, como Claude, usan prompts de sistema que tienen muchos miles de tokens de longitud internamente. Además, en nuestra investigación publicada recientemente demostramos que la optimización automatizada de prompts permite que los modelos de código abierto superen la calidad de los modelos de vanguardia para tareas empresariales.
Databricks ya proporciona caché de prompts integrada para modelos propietarios (GPT, Gemini, Claude). Ahora hemos extendido esta capacidad a los modelos de pesos abiertos que potencian nuestras APIs de Modelos Fundacionales (FMAPIs) para inferencia por lotes, pago por token y cargas de trabajo de rendimiento aprovisionado. También se aplica a todos los servicios de nivel superior potenciados por un modelo fundacional, por ejemplo, Agent Bricks, Genie, AI Functions.
La caché de prompts ahora es compatible con los siguientes modelos OSS alojados en Databricks:
Continuaremos implementando esta característica en nuestros otros modelos. La seguridad es una preocupación de primera clase en Databricks. Las cachés de prompts están aisladas, solo residen en memoria volátil y nunca se persisten. Es importante destacar que la caché es implícita: los clientes no necesitan configurar nada, nuestro sistema está diseñado para ejecutar automáticamente la caché de prompts y la reutilización para mejorar el rendimiento.
Implementamos la caché de prompts primero en nuestros modelos GPT‑OSS y de inmediato vimos mejoras medibles en uno de los pipelines de inferencia por lotes de producción a gran escala:

Al reutilizar automáticamente las cachés KV para prompts idénticos, Databricks te permite ejecutar LLMs de código abierto de manera más rápida, rentable y segura, todo sin requerir configuración adicional. Ya sea que estés sirviendo chat en tiempo real, procesando grandes colecciones de documentos por lotes o construyendo agentes de IA, la caché de prompts puede convertir un buen pipeline de inferencia en uno excelente. Pruébalo en tu próxima implementación de modelo OSS y observa cómo aumentan las métricas de rendimiento.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.