Direkt zum Hauptinhalt

Domänenintelligenz setzt sich durch: Was „hohe Qualität“ bei produktiver KI wirklich bedeutet

Warum Zuverlässigkeit, Kontext und Governance die Grundpfeiler von Enterprise-KI-Agenten sind

Domain Intelligence Wins: What “High-Quality” Actually Means in Production AI

Veröffentlicht: February 12, 2026

Datenstrategie7 min Lesezeit

Summary

  • Hochwertige agentenbasierte KI definiert sich durch Systemzuverlässigkeit. Im produktiven Einsatz hängt die Qualität davon ab, wie Agenten Daten, Tools und Kontext in mehrstufigen Workflows nutzen.
  • Domänenspezifische Agenten übertreffen allgemeine KI in Unternehmensumgebungen. Indem Organisationen den Umfang einschränken und Agenten im Geschäftskontext verankern, reduzieren sie Halluzinationen und erhöhen das Vertrauen.
  • Führungskräfte müssen einheitliche Datengrundlagen, klare Zuständigkeiten und produktionsreifes Engineering priorisieren, um agentenbasierte KI in echten Wert zu verwandeln.

Während Unternehmen vom Experimentieren mit generativer KI zum produktiven Einsatz von agentenbasierten Systemen übergehen, verändert sich die Diskussion. Die Frage, die sich Führungskräfte stellen, ist nicht mehr „Kann dieses Modell logisch schlussfolgern?“, sondern „Kann man diesem System vertrauen?“

Um zu ergründen, was dieser Wandel wirklich bedeutet, habe ich mich mit Maria Zervou, Chief KI Officer für EMEA bei Databricks, zusammengesetzt. Maria arbeitet eng mit Kunden aus regulierten und schnelllebigen Branchen zusammen und verbringt ihre Zeit an der Schnittstelle von KI-Architektur, Governance und praktischer Umsetzung.

Während des gesamten Gesprächs kam Maria immer wieder auf denselben Punkt zurück: Der Erfolg mit agentenbasierter KI liegt nicht am Modell. Es geht um die umgebenden Systeme – Daten, Engineering Disziplin und klare Verantwortlichkeiten.

Catherine Brown: Viele Führungskräfte, mit denen ich spreche, setzen KI-Qualität immer noch damit gleich, wie beeindruckend das Modell erscheint. Sie haben argumentiert, dass das der falsche Ansatz ist. Warum?

Maria Zervou: Das größte Missverständnis, das ich sehe, ist, dass die Leute die Cleverness eines Modells oder dessen wahrgenommene Fähigkeit zum logischen Schlussfolgern mit Qualität verwechseln. Das ist nicht dasselbe.

Bei Qualität, insbesondere bei agentenbasierten Systemen, geht es um eine sich aufbauende Zuverlässigkeit. Man bewertet nicht mehr nur eine einzelne Antwort. Man bewertet ein System, das möglicherweise Hunderte von Schritten ausführt – Daten abrufen, Tools aufrufen, Entscheidungen treffen, Probleme eskalieren. Selbst kleine Fehler können sich auf unvorhersehbare Weise summieren.

Also ändern sich die Fragen. Hat der Agent die richtigen Daten verwendet? Hat er die richtigen Ressourcen gefunden? Wusste er, wann er anhalten oder eskalieren musste? Genau hier liegt die wahre Qualität.

Und wichtig ist, dass Qualität für verschiedene Stakeholder unterschiedliche Bedeutungen hat. Technische Teams konzentrieren sich oft auf KPIs wie Kosten, Latenz oder Durchsatz. Endnutzer legen Wert auf Marken-Compliance, Tonalität und rechtliche Rahmenbedingungen. Wenn diese Perspektiven also nicht aufeinander abgestimmt sind, optimiert man am Ende das Falsche.

Catherine: Das ist interessant, vor allem, weil viele Führungskräfte davon ausgehen, dass KI-Systeme „perfekt“ sein müssen, um nutzbar zu sein, insbesondere in regulierten Umgebungen. Wie sollten Unternehmen in stark regulierten Branchen KI-Initiativen angehen?

Maria: In stark regulierten Sektoren braucht man zwar eine sehr hohe Genauigkeit, aber der erste Maßstab sollte die menschliche Performance sein. Menschen machen ständig Fehler. Wenn man die Erwartungen nicht in der Realität verankert, kommt man nie voran.

Wichtiger sind Nachvollziehbarkeit und Rechenschaftspflicht. Wenn etwas schiefgeht, kann man dann nachvollziehen, warum eine Entscheidung getroffen wurde? Wer ist für das Ergebnis verantwortlich? Welche Daten wurden verwendet? Wenn Sie diese Fragen nicht beantworten können, ist das System nicht produktionsreif, ganz gleich, wie beeindruckend das Ergebnis aussieht.

Catherine: Sie sprechen viel über domänenspezifische Agenten im Vergleich zu allgemeinen Modellen. Wie sollten Führungskräfte über diesen Unterschied nachdenken?

Maria: Ein Allzweckmodell ist im Wesentlichen eine sehr fähige Reasoning-Engine, die auf sehr großen und vielfältigen Datasets trainiert wurde. Aber es versteht Ihr Geschäft nicht. Ein domänenspezifischer Agent verwendet dieselben Basismodelle, wird aber durch Kontext leistungsfähiger. Sie zwingen ihn in einen vordefinierten Anwendungsfall. Man begrenzt den Raum, den er durchsuchen kann. Sie bringen ihm bei, was Ihre KPIs bedeuten, was Ihre Terminologie bedeutet und welche Aktionen er ausführen darf.

Diese Einschränkung ist tatsächlich das, was es besser macht. Durch die Eingrenzung der Domäne werden Halluzinationen reduziert und die Zuverlässigkeit der Ergebnisse erhöht. Der größte Teil des Wertes stammt nicht vom Modell selbst. Er stammt von den proprietären Daten, auf die es sicher zugreifen kann, der semantischen Ebene, die Bedeutung definiert, und den Tools, die es verwenden darf. Im Wesentlichen kann es auf der Grundlage Ihrer Daten schlussfolgern. Darin liegt der Wettbewerbsvorteil.

Catherine: Wo kommt es Ihrer Erfahrung nach typischerweise zu Problemen bei den Workflows von KI-Agenten, wenn Unternehmen versuchen, vom Prototyp zur Produktion überzugehen?

Maria: Es gibt drei Hauptfehlerquellen. Die erste ist die Tempodiskrepanz. Die Technologie entwickelt sich schneller als die meisten Organisationen. Teams stürzen sich auf die Entwicklung von Agenten, bevor sie die grundlegende Arbeit in Bezug auf Datenzugriff, Sicherheit und Struktur geleistet haben.

Die zweite ist implizites Wissen. Vieles von dem, was Mitarbeiter effektiv macht, steckt in den Köpfen der Leute oder in verstreuten Dokumenten. Wenn dieses Wissen nicht in einer Form kodifiziert ist, die ein Agent verwenden kann, wird sich das System nie so verhalten, wie es das Unternehmen erwartet.

Das Dritte ist die Infrastruktur. Viele Teams planen nicht für die Scale oder den Einsatz in der Praxis. Sie bauen etwas, das einmal in einer Demo funktioniert, aber unter Produktivlast zusammenbricht.

Alle drei Probleme treten tendenziell gemeinsam auf.

Catherine: Sie haben bereits gesagt, dass die Erfassung von Geschäftswissen genauso wichtig ist wie die Wahl des richtigen Modells. Wo sehen Sie, dass Organisationen dies gut umsetzen?

5-FACHER LEADER

Gartner®: Databricks als Leader für Cloud-Datenbanken

Maria: Es beginnt mit der Erkenntnis, dass KI-Systeme keine einmaligen Projekte sind. Sie sind lebende Systeme. Ein praktischer Ansatz ist es, Meetings aufzuzeichnen und zu transkribieren und dies als Rohmaterial zu behandeln. Diese Informationen werden dann strukturiert, zusammengefasst und verschlagwortet, damit das System sie später abrufen kann. Mit der Zeit bauen Sie eine Wissensdatenbank auf, die widerspiegelt, wie das Unternehmen tatsächlich denkt.

Ebenso wichtig ist, wie man die Evaluierungen gestaltet. Frühe Versionen eines Agenten sollten von den Stakeholdern aus den Fachbereichen genutzt werden, nicht nur von Ingenieuren. Ihr Feedback – was sich richtig anfühlt, was nicht, warum etwas falsch ist – wird zu Trainingsdaten.

Der Aufbau eines effektiven Evaluierungssystems, das auf den spezifischen Zweck dieses Agenten zugeschnitten ist, ist entscheidend, um qualitativ hochwertige Ergebnisse zu gewährleisten, was wiederum für alle KI-Projekte in der Produktion von entscheidender Bedeutung ist. Unsere eigenen Nutzungsdaten zeigen, dass Kunden, die KI-Evaluierungstools verwenden, fast 6-mal mehr KI-Projekte in die Produktion bringen als diejenigen, die dies nicht tun.

Im Endeffekt kodifiziert man die unternehmerische Intelligenz in Bewertungskriterien.

Catherine: Das klingt teuer und zeitaufwendig. Wie bringen Sie Sorgfalt und Geschwindigkeit in Einklang?

Maria: An dieser Stelle spreche ich von Minimum Viable Governance. Man löst die Governance nicht am ersten Tag für das gesamte Unternehmen. Man löst sie für die spezifische Domäne und den Anwendungsfall, an dem man arbeitet. Man stellt sicher, dass die Daten für diesen Agenten kontrolliert, nachvollziehbar und prüfbar sind. Wenn sich das System dann als wertvoll erweist, wird es erweitert.

Was dabei hilft, sind wiederholbare Bausteine – Muster, die bereits bewährte Verfahren für Engineering und Governance enthalten. Das ist der Gedanke hinter Ansätzen wie Agent Bricks, bei denen Teams auf ausgereiften Grundlagen aufbauen können, anstatt Workflows, Evaluierungen und Kontrollen jedes Mal von Grund auf neu zu erfinden.

Führungskräfte sollten dennoch von vornherein auf einige nicht verhandelbare Punkte bestehen: klare geschäftliche KPIs, ein benannter Sponsor aus der Führungskraft, gemeinsam mit den Geschäftsanwendern erstellte Evaluierungen und solide Grundlagen des Software-Engineering. Das erste Projekt wird mühsam sein – aber es legt das Muster für alles fest, was folgt, und macht die Bereitstellung nachfolgender Agenten viel schneller.

Wenn Sie diesen Schritt überspringen, erhalten Sie am Ende das, was ich „Demo-Ware“ nenne: beeindruckende Prototypen, die nie ganz real werden.

Catherine: Können Sie Beispiele nennen, bei denen Agenten die Arbeitsweise wesentlich verändert haben?

Maria: Intern bei Databricks haben wir das an einigen Stellen gesehen. Im Bereich Professional Services werden Agenten eingesetzt, um Kundenumgebungen bei Migrationen zu scannen. Anstatt dass Techniker jedes Schema und System manuell überprüfen, generiert der Agent empfohlene Workflows auf der Grundlage von Best Practices. Das reduziert den Zeitaufwand für repetitive Analysen drastisch.

Im Field Engineering generieren Agenten automatisch Demo-Umgebungen, die auf die Branche und den Anwendungsfall eines Kunden zugeschnitten sind. Was früher Stunden an manueller Vorbereitung erforderte, geht jetzt viel schneller und mit höherer Konsistenz.

In beiden Fällen hat der Agent das Fachwissen nicht ersetzt, sondern erweitert.

Catherine: Wenn Sie dies für einen CIO oder CDO, der diesen Weg gerade erst einschlägt, zusammenfassen müssten, worauf sollte er sich zuerst konzentrieren?

Maria: Starten Sie mit den Daten. Vertrauenswürdige Agenten benötigen eine einheitliche, kontrollierbare und prüfbare Datengrundlage. Wenn Ihre Daten fragmentiert oder unzugänglich sind, wird der Agent scheitern – ganz gleich, wie gut das Modell ist. Zweitens: Schaffen Sie Klarheit über die Verantwortlichkeiten. Wer ist für die Qualität verantwortlich? Wer ist für die Ergebnisse verantwortlich? Wer entscheidet, wann der Agent „gut genug“ ist? Und schließlich denken Sie daran, dass es bei agentenbasierter KI nicht darum geht, zu zeigen, wie intelligent das System ist. Es geht darum, ob das System dem Unternehmen zuverlässig hilft, schneller bessere Entscheidungen zu treffen, ohne neue Risiken einzuführen.

Schlussgedanken

Agentenbasierte KI stellt einen echten Wandel dar – weg von Werkzeugen, die Menschen unterstützen, hin zu Systemen, die in ihrem Namen handeln. Aber wie Maria deutlich macht, hängt der Erfolg weit weniger von der Komplexität des Modells ab als von Disziplin: bei den Daten, der Governance und dem Engineering.

Für Führungskräfte besteht die Herausforderung nicht darin, ob Agenten kommen. Sondern, ob ihre Unternehmen bereit sind, Systeme zu entwickeln, denen man vertrauen kann, sobald sie da sind.

Um mehr über die Entwicklung eines effektiven Betriebsmodells zu erfahren, laden Sie das Databricks AI Maturity Model herunter.

 

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Infrastructure & Strategies Driving the Next Wave of Enterprise AI

Líder de dados

February 2, 2026/5 min de leitura

Infraestrutura e estratégias que impulsionam a próxima onda de IA empresarial

Delta Lake

Estratégia de dados

February 3, 2026/13 min de leitura

Delta Lake Explicado: Aumente a confiabilidade dos dados no armazenamento em nuvem