Schnellere, sichere OSS LLM-Inferenz mit Prompt Caching.
von Pei-Lun Liao, Asfandyar Qureshi, Roshan Regula, Bruce Fontaine, James Thomas und Chenyang Yu
Die Inferenz von Large Language Models (LLMs) beinhaltet oft wiederholte Prompts – denken Sie an denselben System- oder Anweisungsprompt, der in Tausenden von Anfragen vorkommt. Die erneute Verarbeitung dieses identischen Präfixes für jeden Aufruf verschwendet Rechenzyklen, erhöht die Latenz und steigert die Kosten.
Prompt Caching eliminiert diese Redundanz und bietet:
Prompt Caching kann eine leistungsstarke Technik sein, um die Qualität eines Modells in bestimmten Domänen zu verbessern, ohne den Token-Durchsatz des Modells zu beeinträchtigen. Abfragen können einen großen domänenspezifischen System-Prompt teilen, wobei die Rechenkosten dieses gemeinsamen Prompts auf alle diese Abfragen verteilt werden. Frontier-Modelle wie Claude verwenden System-Prompts, die intern viele Tausend Tokens lang sind. Darüber hinaus haben wir in unserer kürzlich veröffentlichten Forschung gezeigt, dass die automatisierte Prompt-Optimierung es Open-Source-Modellen ermöglicht, die Qualität von Frontier-Modellen für Unternehmensaufgaben zu übertreffen.
Databricks bietet bereits integriertes Prompt Caching für proprietäre Modelle (GPT, Gemini, Claude). Wir haben diese Funktion nun auf die Open-Weights-Modelle erweitert, die unsere Foundation Model APIs (FMAPIs) für Batch-Inferenz, Pay-per-Token und Provisioned Throughput Workloads antreiben. Dies gilt auch für alle übergeordneten Dienste, die von einem Foundation Model unterstützt werden, z. B. Agent Bricks, Genie, AI Functions.
Prompt Caching wird jetzt für die folgenden OSS-Modelle unterstützt, die auf Databricks gehostet werden:
Wir werden dieses Feature weiterhin für unsere anderen Modelle ausrollen. Sicherheit hat bei Databricks oberste Priorität. Prompt-Caches sind isoliert, befinden sich nur im flüchtigen Speicher und werden niemals persistent gespeichert. Wichtig ist, dass das Caching implizit ist: Kunden müssen nichts konfigurieren, unser System ist darauf ausgelegt, das Prompt Caching automatisch auszuführen und zur Verbesserung des Durchsatzes wiederzuverwenden.
Wir haben Prompt Caching zuerst für unsere GPT‑OSS-Modelle eingeführt und sofort messbare Verbesserungen in einer der groß angelegten Produktions-Batch-Inferenz-Pipelines festgestellt:

Durch die automatische Wiederverwendung von KV-Caches für identische Prompts ermöglicht Databricks Ihnen, Open-Source-LLMs schneller, kostengünstiger und sicherer auszuführen – und das alles ohne zusätzliche Konfiguration. Egal, ob Sie Echtzeit-Chats bedienen, große Dokumentensammlungen im Batch verarbeiten oder KI-Agenten erstellen, Prompt Caching kann eine gute Inferenz-Pipeline zu einer großartigen machen. Probieren Sie es bei Ihrem nächsten OSS-Modell-Deployment aus und beobachten Sie, wie die Leistungskennzahlen steigen.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.