25. November 2024

Xcel Energy: Entwicklung eines RAG-basierten Chatbots auf Databricks

Generierung präziser, kontextbezogener Antworten mithilfe von LLMs

von Aradhya Chouhan, Uttaran Banerjee, Blake Kleinhans (Xcel Energy) und Hari Purnapatre (Xcel Energy)

Dieser Blog beschreibt, wie Xcel Energy Databricks genutzt hat, um einen auf einer Retrieval-Augmented Generation (RAG)-Architektur basierenden Chatbot zu entwickeln, der Prozesse wie die Prüfung von Tarifverfahren und rechtlichen Verträgen optimieren soll. Die Databricks Data Intelligence Platform war in allen Entwicklungsphasen – von der Data Governance bis zur Bereitstellung – von entscheidender Bedeutung. Die Funktionen der Plattform, darunter Unity Catalog, Foundation Model APIs, AI Search, MLflow und Model Serving, ermöglichten es dem Team, sich auf die Verfeinerung der RAG-Architektur und die Verbesserung der Chatbot-Performance zu konzentrieren. Das Projekt verkürzte die Zeit für die Prüfung von Tarifverfahren erheblich und verbesserte den Datenzugriff sowie die Gewinnung von Erkenntnissen.

Xcel Energy ist ein führendes Strom- und Erdgasunternehmen, das 3,4 Millionen Stromkunden und 1,9 Millionen Erdgaskunden in acht Bundesstaaten versorgt: Colorado, Michigan, Minnesota, New Mexico, North Dakota, South Dakota, Texas und Wisconsin. Xcel Energy wollte einen auf einer Retrieval-Augmented Generation (RAG)-Architektur basierenden Chatbot unter Nutzung von Databricks entwickeln, um Abläufe zu optimieren und Kunden besser zu betreuen. Die Data Scientists von Xcel Energy identifizierten mehrere vielversprechende Anwendungsfälle zum Testen, darunter die Überprüfung von Tarifverfahren, die Prüfung von rechtlichen Verträgen und die Analyse von Berichten zu Quartalszahlen. Da beispielsweise die Energiepreise schwanken, muss Xcel Energy seine Tarife anpassen, um sie an die Marktfaktoren anzupassen – ein Prozess, der mehrere Monate dauern kann. Gleichzeitig wollte die Führungsebene von Xcel Energy schnell Erkenntnisse aus Berichten zu Quartalszahlen gewinnen, ohne Hunderte von PDF-Seiten durchsuchen zu müssen, und das Rechtsteam benötigte schnellen Zugriff auf Details aus Kundenverträgen.

Das Ziel des Datenteams war die Implementierung eines skalierbaren und effizienten generativen KI-Systems, das relevante Daten aus einem großen Dokumentenbestand abrufen und mithilfe von Large Language Models (LLMs) präzise, kontextbezogene Antworten generieren kann. Die Funktionen der Databricks Data Intelligence Platform optimierten jede Phase der Entwicklung, von der Data Governance und Modellintegration bis hin zu Monitoring und Deployment. Jetzt dauern Tarifverfahren, die auf der Prüfung komplexer Dokumente wie Energiepreisberichten und staatlichen Vorschriften basieren, nur noch 2 Wochen statt bis zu 6 Monaten.

Databricks ermöglichte die schnelle Entwicklung und Bereitstellung unserer RAG-basierten Chatbots, was unsere Time-to-Value erheblich verkürzt hat. Die Plattform ließ sich nahtlos in unsere internen Datenquellen und bestehenden Dashboard-Tools integrieren, sodass sich unser Team auf die Qualitätsverbesserung konzentrieren konnte, anstatt die Infrastruktur von Grund auf neu aufzubauen. Zudem machte es Databricks uns leicht, mit verschiedenen Embeddings und Sprachmodellen zu experimentieren, um die bestmögliche Leistung zu erzielen.—Blake Kleinhans, Senior Data Scientist, Xcel Energy

Datenmanagement und -aufbereitung

Ein entscheidender erster Schritt im Projekt war die Etablierung effektiver Methoden für Data Governance und Datenmanagement. Als Energieversorger musste Xcel Energy eine strenge Sicherheit und Governance gewährleisten, um jegliches Risiko des Abfließens sensibler oder geschützter Daten zu vermeiden. Jeder Anwendungsfall erforderte eine Vielzahl von Dokumenten, einige öffentlich (Quartalsberichte) und andere sensibel (rechtliche Verträge). Databricks Unity Catalog ermöglichte ein zentralisiertes Datenmanagement für strukturierte und unstrukturierte Daten, einschließlich des Dokumentenbestands für die Wissensdatenbank des Chatbots. Es bot feingranulare Zugriffskontrollen, die sicherstellten, dass alle Daten sicher und richtlinienkonform blieben – ein erheblicher Vorteil bei Projekten mit sensiblen oder geschützten Daten.

Um ihre Plattform für generative KI auf dem neuesten Stand zu halten, mussten relevante Daten direkt nach dem Erfassen im RAG-basierten Chatbot verfügbar gemacht werden. Für die Datenaufbereitung wurden Databricks Notebooks und Apache Spark™ genutzt, um große Datensätze aus verschiedenen Quellen zu verarbeiten, darunter Regierungswebsites, rechtliche Dokumente und interne Rechnungen. Die verteilten Rechenkapazitäten von Spark ermöglichten es dem Team, Dokumente schnell in ihren Data Lake zu laden und vorzuverarbeiten, sodass Xcel Energy große Daten-Workflows in kürzester Zeit in einen Vector Store übertragen konnte.

Generierung und Speicherung von Embeddings

Embeddings waren entscheidend für den Abrufmechanismus (Retrieval) der RAG-Architektur. Das Team nutzte die Databricks Foundation Model APIs, um auf modernste Embedding-Modelle wie databricks-bge-large-en und databricks-gte-large-en zuzugreifen, die hochwertige Vektordarstellungen des Dokumentenbestands lieferten. Diese Embeddings machten die manuelle Bereitstellung oder Verwaltung der Modellinfrastruktur überflüssig, was den Prozess der Embedding-Generierung vereinfachte.

Die Embeddings wurden anschließend in Databricks AI Search gespeichert, einer serverlosen und hochgradig skalierbaren Vektordatenbank, die in die Databricks-Umgebung integriert ist. Dies gewährleistete eine effiziente Ähnlichkeitssuche, die das Rückgrat der Retrieval-Komponente des Chatbots bildete. Die nahtlose Integration von AI Search in das Databricks-Ökosystem reduzierte die Komplexität der Infrastruktur erheblich.

LLM-Integration und RAG-Implementierung

Xcel konnte mithilfe der Databricks Foundation Model APIs verschiedene LLMs testen. Diese APIs bieten Zugriff auf vortrainierte, hochmoderne Modelle, ohne dass ein Aufwand für die Verwaltung von Deployments oder Rechenressourcen entsteht. Dies stellte sicher, dass die LLMs problemlos in den Chatbot integriert werden konnten, was eine robuste Textgenerierung bei minimalem Aufwand für das Infrastrukturmanagement ermöglichte.

Die erste Bereitstellung erfolgte mit Mixtral 8x7b-instruct mit einer Token-Länge von 32k, nachdem zuvor Llama 2- und DBRX-Modelle getestet worden waren. Mixtral, ein Sparse Mixture of Experts (SMoE)-Modell, erreichte bei den meisten Benchmarks die Leistung von Llama 2 70B und GPT 3.5 oder übertraf diese sogar, während es bei der Inferenz viermal schneller als Llama 70B war. Xcel Energy legte großen Wert auf die Ausgabequalität und nutzte Mixtral, bis das Unternehmen zu Anthropics Claude Sonnet 3.5 in AWS Bedrock wechselte, worauf in Databricks über das Agent Bricks AI Gateway und AI Search für RAG zugegriffen wird.

Die RAG-Pipeline wurde mit LangChain erstellt, einem leistungsstarken Framework, das sich nahtlos in die Komponenten von Databricks integrieren lässt. Durch die Nutzung von Databricks AI Search für die Ähnlichkeitssuche und die Kombination mit der LLM-Abfragegenerierung entwickelte das Team ein effizientes RAG-basiertes System, das kontextbezogene Antworten auf Benutzeranfragen liefern kann. Die Kombination aus LangChain und Databricks vereinfachte den Entwicklungsprozess und verbesserte die Systemleistung.

Experiment-Tracking und Modellmanagement mit MLflow

Das Projekt nutzte in vollem Umfang MLflow, eine weit verbreitete Open-Source-Plattform für Experiment-Tracking und Modellmanagement. Mithilfe der LangChain-Integration von MLflow konnte das Team während des Entwicklungsprozesses verschiedene Konfigurationen und Parameter des RAG-Modells protokollieren. Dies ermöglichte eine Versionierung und vereinfachte das Deployment von LLM-Anwendungen, was einen klaren Weg vom Experimentieren bis zur Produktion bot.

Wir befassen uns derzeit intensiver mit den Funktionen von MLflow Tracing. Diese Funktionalität wird uns maßgeblich dabei helfen, Performance-Probleme zu diagnostizieren und die Qualität der Antworten unseres Customer Call Support-Chatbots zu verbessern.—Blake Kleinhans, Senior Data Scientist, Xcel Energy

Zudem ermöglichte das AI Gateway dem Team, Anmeldedaten und den Modellzugriff zentral zu verwalten, was einen effizienten Wechsel zwischen LLMs sowie eine Kostenkontrolle durch Rate Limiting und Caching erlaubte.

Model Serving und Deployment

Die Bereitstellung des Chatbots wurde durch den Einsatz von Databricks Model Serving optimiert. Diese serverlose Rechenoption bot eine skalierbare und kostengünstige Lösung für das Hosting des RAG-basierten Chatbots. Sie ermöglichte es, das Modell mit minimalem Einrichtungsaufwand als REST-API-Endpunkt bereitzustellen. Der Endpunkt konnte dann problemlos in Frontend-Anwendungen integriert werden, was den Übergang von der Entwicklung zur Produktion vereinfachte.

Model Serving ermöglichte zudem eine GPU-basierte Skalierung, was die Latenz und die Betriebskosten senkte. Diese Skalierbarkeit war bei der Erweiterung des Projekts von entscheidender Bedeutung, da der Chatbot so steigende Benutzerzahlen ohne größere architektonische Änderungen bewältigen konnte.

Monitoring und kontinuierliche Verbesserung

Nach dem Deployment wurde Databricks SQL zur Implementierung von Monitoring-Lösungen eingesetzt. Das Team erstellte Dashboards, die wichtige Metriken wie Antwortzeiten, Abfragevolumen und Kundenzufriedenheitswerte erfassten. Diese Erkenntnisse waren entscheidend für die kontinuierliche Verbesserung der Leistung des Chatbots und die Gewährleistung einer langfristigen Zuverlässigkeit.

Durch die Integration des Monitorings in den gesamten Workflow konnte das Team potenzielle Probleme proaktiv angehen und die Systemleistung auf der Grundlage von Echtzeit-Feedback optimieren.

Fazit: Vorteile von Databricks für GenAI-Anwendungen

Die Databricks Data Intelligence Platform ermöglichte die schnelle Entwicklung und Bereitstellung des RAG-basierten Chatbots, wodurch die Komplexität, die normalerweise mit der Verwaltung großer KI-Projekte verbunden ist, erheblich reduziert wurde. Die Integration von Tools wie Unity Catalog, Foundation Model-APIs, AI Search, MLflow und Model Serving bot ein durchgängiges End-to-End-KI-Agentensystem für die Erstellung von GenAI-Anwendungen.

Unser Ziel ist es auch, LLMs im gesamten Unternehmen Xcel zugänglicher zu machen, damit Teams sie für Aufgaben wie Tagging, Sentimentanalyse und alle anderen benötigten Anwendungen nutzen können.—Blake Kleinhans, Senior Data Scientist, Xcel Energy

Durch den Fokus auf Skalierbarkeit, eine einfache Infrastruktur und Model Governance ermöglichte es die Plattform dem Team, sich auf die Verfeinerung der RAG-Architektur zu konzentrieren und die Leistung des Chatbots mühelos zu verbessern. Die robusten Funktionen der Plattform stellten sicher, dass das Projekt bei steigender Benutzernachfrage effizient skaliert werden konnte, was Databricks zu einer idealen Wahl für die Entwicklung und Bereitstellung fortschrittlicher GenAI-Anwendungen macht. Das Data-Science-Team von Xcel Energy schätzte die Freiheit, problemlos auf fortschrittlichere LLMs umzusteigen, sobald diese verfügbar sind, ohne die gesamte Architektur zu beeinträchtigen.

Mit Blick auf die Zukunft geht Xcel Energy davon aus, den Einsatz von GenAI-Tools im gesamten Unternehmen weiter ausbauen zu können, um den Zugang zu Daten und Erkenntnissen zu demokratisieren.

Dieser Blogbeitrag wurde gemeinsam verfasst von Blake Kleinhans (Xcel Energy), Hari Purnapatre (Xcel Energy), Aradhya Chouhan (Databricks) und Uttaran Banerjee (Databricks).

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen