In den letzten Monaten ist das Interesse von Behörden des öffentlichen Sektors an Large Language Models (LLMs) sprunghaft angestiegen, da LLMs die Erwartungen, die Menschen an ihre Interaktionen mit Computern und Daten haben, grundlegend verändern. Aus Sicht von Databricks verspürt praktisch jeder Kunde und Interessent aus dem öffentlichen Sektor, mit dem wir interagieren, den Auftrag, LLMs in seine Mission zu integrieren. Uns werden immer wieder Fragen darüber gestellt, was LLMs (wie Databricks' Dolly) sind, wofür sie verwendet werden können und wie die Databricks Lakehouse LLM-bezogene Anwendungen unterstützen wird. In diesem Beitrag gehen wir auf diese Fragen im Kontext der besonderen Bedürfnisse, Chancen und Beschränkungen von Organisationen des öffentlichen Sektors ein. Wir werden uns auch auf die Vorteile der Erstellung, des Besitzes und der Kuratierung eines eigenen LLM konzentrieren, im Gegensatz zur Einführung einer Technologie wie ChatGPT, die Data Sharing erfordert.
Die heutigen LLMs stellen die neueste Version in einer Reihe von Innovationen im Bereich Natural Language Processing dar, die etwa 2017 mit dem Aufkommen der Transformer -Modellarchitektur begann. Diese auf Transformern basierenden Modelle verfügen seit Langem über erstaunliche Fähigkeiten, die menschliche Sprache so gut zu verstehen, dass sie Tasks wie das Erkennen von Stimmungen, das Extrahieren von genannten Personen, Orten und Dingen und das Übersetzen von Dokumenten von einer Sprache in eine andere ausführen können. Sie können auch anhand eines Prompts interessanten Text in unterschiedlicher Qualität und Genauigkeit generieren. In jüngerer Zeit haben Forscher und Entwickler entdeckt, dass sehr große Sprachmodelle, die auf sehr großen und vielfältigen Textquellen "vortrainiert" wurden, "feinabgestimmt" werden können, um eine Vielzahl von Anweisungen eines Menschen zu befolgen und nützliche Informationen zu generieren.
Früher war es die bewährte Methode, für jede sprachbezogene Task separate Modelle zu trainieren. Der Prozess des Modelltrainings erforderte Ressourcen: kuratierte Daten, compute (in der Regel eine oder mehrere GPUs) und fortgeschrittene Kenntnisse in den Bereichen Data Science und Softwareentwicklung. Obwohl solche Modelle sehr genau sein können, gibt es bei der Skalierung ihrer Nutzung eindeutig Ressourcenbeschränkungen – sowohl in Bezug auf die Rechenleistung als auch auf den menschlichen Aufwand. Mit dem rasanten Aufstieg von ChatGPT sehen wir nun, dass ein einziges LLM – mit dem entsprechenden Kontext und dem richtigen Prompt – für viele verschiedene Aufgaben verwendet werden kann, manchmal sogar mit höherer Genauigkeit als ein spezialisierteres Modell. Und die Fähigkeit von LLMs, neuen Text zu generieren – „Generative KI“ – ist sowohl faszinierend als auch äußerst nützlich.
Organisationen des Privatsektors haben über erstaunliche Vorteile von LLMs berichtet, wie z. B. Codegenerierung und -migration, automatische Kategorisierung von Kundenfeedback und entsprechende Antworten, Callcenter-Chatbots, Berichtserstellung und vieles mehr. Als Mikrokosmos vieler verschiedener Branchen haben Behörden des öffentlichen Sektors die gleichen LLM-Möglichkeiten und darüber hinaus weitere einzigartige Anforderungen. Häufige Anwendungsfälle im öffentlichen Sektor sind:
Obwohl LLMs zweifellos leistungsstark sind, bringen sie auch eine Reihe neuer Herausforderungen mit sich, die durch einige der betrieblichen Einschränkungen, die für Organisationen des öffentlichen Sektors typisch sind, noch verstärkt werden. Lassen Sie uns einige davon genauer betrachten und sie auf die Funktionen des Databricks Lakehouse abstimmen:
Die meisten Organisationen des öffentlichen Sektors haben strenge regulatorische Kontrollen für ihre Daten. Diese Kontrollen dienen dem Datenschutz, der Sicherheit und in manchen Fällen der Notwendigkeit, die Geheimhaltung zu wahren. Schon die einfache Task, einem LLM eine oder mehrere Fragen zu stellen, könnte geschützte Information preisgeben. Darüber hinaus werden die meisten Bundesbehörden LLMs für ihre speziellen Anforderungen feintunen müssen. Aus diesen Gründen ist davon auszugehen, dass Behörden des öffentlichen Sektors bei der Nutzung öffentlicher Modelle eingeschränkt sein werden. Wahrscheinlich werden sie fordern, dass die Modelle in einer Umgebung einer Feinabstimmung unterzogen werden, die deren Vertraulichkeit und Sicherheit gewährleistet, und dass auch die Interaktionen mit den Modellen über verschiedene Prompting-Methoden vertraulich sind.
Die Lakehouse-Plattform von Databricks bietet die notwendigen Tools, um End-to-End-LLM-Anwendungen zu entwickeln und bereitzustellen. (Mehr dazu später.) Darüber hinaus verfügt Databricks über die erforderlichen Zertifizierungen, um Daten für die große Mehrheit der Organisationen des öffentlichen Sektors in den USA zu verarbeiten. Databricks ist ein vertrauenswürdiger und kompetenter Partner für Organisationen, die das volle Potenzial von LLMs ausschöpfen möchten, ohne die Risiken, die durch die Nutzung proprietärer LLMs-as-a-Dienst wie ChatGPT oder Bard entstehen.
Über Databricks hinaus gibt es in der Branche zunehmend Belege dafür, dass Open-Source-LLMs – bei richtiger Anwendung – Ergebnisse liefern können, die nahezu an die der führenden proprietären LLMs heranreichen. Dies zeigt sich am deutlichsten in Anwendungsfällen, in denen proprietäre LLMs nuancierte Kontexte oder Anweisungen verstehen müssen, für die sie bisher nicht trainiert wurden. In diesen Fällen können Open-Source-LLMs durch Prompts oder Feinabstimmung auf organisationsspezifische Daten erstaunliche Ergebnisse liefern. Mit dieser Lösungsarchitektur können Unternehmen mit geringem compute- und Entwicklungsaufwand erstklassige Ergebnisse erzielen, ohne dass die Daten die genehmigten Grenzen verlassen. Für Organisationen des öffentlichen Sektors stellt dies einen erheblichen Vorteil dar, der nicht übersehen werden darf.

Die Überzeugung von Databricks von der Leistungsfähigkeit von Open Source LLMs wird durch die Veröffentlichung von Dolly 2.0 bekräftigt, dem ersten quelloffenen, anweisungsbefolgenden LLM, das auf einem von Menschen erstellten, für Forschung und kommerzielle Nutzung lizenzierten Anweisungs-Dataset feinabgestimmt wurde. Auf die Veröffentlichung von Dolly folgte eine Welle anderer leistungsfähiger Open Source-LLMs, von denen einige eine sehr beeindruckende Performance aufweisen. Databricks ist bestrebt, Organisationen des öffentlichen Sektors eine Plattform zum Erstellen von Anwendungen mit dem LLM ihrer Wahl – Open-Source oder kommerziell – bereitzustellen, und wir freuen uns auf die Zukunft.

Die Modernisierung der Datenlandschaft hat für die meisten technischen Führungskräfte im öffentlichen Sektor weiterhin höchste Priorität. Die Zeiten von on-premises Data Warehouses sind größtenteils vorbei; sie werden typischerweise durch ein Data Warehouse oder Lakehouse in der Cloud ersetzt. Organisationen, die noch nicht in die Cloud migriert sind – oder die sich für ein Data Warehouse in der Cloud entschieden haben – stehen jetzt vor einem weiteren Wendepunkt: Wie können LLMs in einer Architektur eingeführt werden, die nicht dafür ausgelegt ist? Angesichts des immensen Potenzials von LLMs, die Missionen von Behörden und die sie erfüllenden Beamten zu beeinflussen, ist es entscheidend, eine zukunftssichere Architektur zu etablieren. Hier kommt das Lakehouse ins Spiel.
Databricks ist seit langem eine leistungsstarke Plattform für Workloads des machine learning (ML) und der künstlichen Intelligenz (KI). Kunden nutzen seit Jahren produktionsreife LLMs und deren Vorgänger auf Databricks und profitieren dabei von Features wie:
Keine dieser Funktionen wird in einem Data Warehouse angeboten, auch nicht in der Cloud. Um LLMs in Verbindung mit einem Data Warehouse zu verwenden, müsste ein Unternehmen andere Softwaredienste für alle Aspekte der Modelltrainings- und Bereitstellungsprozesse beschaffen und Daten zwischen diesen Diensten hin- und hersenden. Nur die Databricks Lakehouse-Architektur bietet die architektonische Einfachheit, alle LLM-Betriebe auf einer einzigen Plattform durchzuführen, und schöpft so die Vorteile, die in unserer obigen Diskussion zur Datensouveränität erläutert wurden, voll aus.
Auf dem Data and AI Summit 2023 hat Databricks Lakehouse AI vorgestellt, das mehrere wichtige neue LLM-bezogene Funktionen hinzufügt, die die Architektur für LLMOps erheblich vereinfachen, darunter:

Regierungsbehörden haben in den letzten Jahren mit einem anhaltenden "Brain Drain" zu kämpfen, insbesondere in Bereichen, die sich mit aktuellen technologischen Trends wie Cybersicherheit, Cloud-Computing und ML/KI überschneiden. Der aktuelle starke Fokus auf LLMs treibt die Nachfrage nach talentierten Fachkräften im Bereich ML/KI noch weiter an. Unweigerlich werden der Reiz und die Vorteile, die mit einer Anstellung bei großen Technologieunternehmen und in der Startup-Szene einhergehen, den Fachkräftemangel im öffentlichen Sektor verschärfen. Führungskräfte im öffentlichen Sektor benötigen Zugang zu Plattformen und Partnerschaften, die ihnen helfen, LLMs einfach einzuführen und ihre Mitarbeiter zu befähigen, eigenständig damit zu arbeiten.
Databricks rollt derzeit Features aus, die die bestehenden Möglichkeiten zur Arbeit mit LLMs auf der Lakehouse-Plattform vereinfachen und erweitern. Dazu gehören:

Zusätzlich dazu, dass wir die Nutzung von LLMs in Databricks vereinfachen, führen wir auch LLM-Schulungs- und Befähigungsprogramme ein, um Unternehmen bei der Skalierung ihrer LLM-Kompetenz zu unterstützen. Diese werden auf einem Niveau angeboten, das für Nutzer von Databricks aus dem öffentlichen Sektor verständlich ist.
Es gibt zahlreiche Möglichkeiten, LLMs zu nutzen, um Anwendungsfälle im öffentlichen Sektor zu beschleunigen. In Altdaten ist ein enormer Wert vergraben, der nur darauf wartet, entdeckt und auf aktuelle Probleme angewendet zu werden. Erfahren Sie mehr darüber, wie Databricks Sie bei der Einführung von LLMs für Ihre Aufgaben unterstützen kann, indem Sie am 2. August um 12:00 Uhr (EDT) an unserem Webinar Large Language Models im öffentlichen Sektor teilnehmen. Sehen Sie sich auch die Anmeldungen für die Feature-Vorschau an, die in der Ankündigung zu Lakehouse AI aufgeführt sind, und prüfen Sie, für welche sich Ihre Organisation qualifiziert.
Setor público
June 4, 2025/3 min de leitura

