Der blinde Fleck der KI-Adoption: Wer überwacht die Agenten?

10. Juni 2026

Quelle: u_an64dh40g2, Pixabay

Die Einführung von KI bringt neuartige Arbeitsweisen, aber auch neue Fehlerquellen mit sich. Damit wachsen die Anforderungen an Zuverlässigkeit und Resilienz und bleiben gleichzeitig zentrale Herausforderungen im IT-Betrieb, einschließlich DevOps, ITOps und AIOps.

Insbesondere mit dem Aufkommen des KI-gestützten Incident Managements als eigenständige Kategorie häufen sich Vorfälle wie der globale IT-Ausfall vom Juli 2024 und treffen Unternehmen oft unvorbereitet. Doch selbst bei solch neuartigen Vorfällen können gut konzipierte Automatisierungs- und KI-Funktionen das Ausmaß des Ausfalls durch eine verbesserte und effizientere Reaktion mindern.

Mehr Kontext und weniger Störsignale für die IT-Teams sind dabei nur die Spitze des Eisbergs. Ein KI-gesteuertes Incident-Management-Framework kann die Spielregeln grundlegend verändern. Dennoch stehen viele Unternehmen erst am Anfang der Reise, KI als festen Bestandteil ihres operativen Playbooks zu etablieren.

Zuverlässigkeit bleibt ein zentrales Fundament und ein entscheidender Faktor für die Kundenerfahrung. Herkömmliche Frameworks für das Incident-Management sind jedoch nicht darauf ausgelegt, das nicht deterministische Verhalten großer Sprachmodelle (LLMs) und KI-Agenten zu bewältigen.
In einer Welt, in der nahezu jeder KI-Agenten entwickelt und einsetzt, muss daher auch die Art und Weise, wie auf Vorfälle reagiert wird, weiterentwickelt werden. Wie kann man beispielsweise Halluzinationen oder einen agentenbasierten Workflow, der in einer Endlosschleife steckt, erkennen und adressieren?

Die Grenzen klassischer digitaler Betriebsmodelle

Klassische DevOps- und MLOps-Lösungen wurden unter Berücksichtigung deterministischer Systeme konzipiert und entwickelt, lange bevor GenAI-Modelle breite Anwendung fanden. Diese großen Sprachmodelle und autonomen Agenten führen zu Variabilität, Kontextabhängigkeit und Unvorhersehbarkeit in Arbeitsabläufen und erhöhen gleichzeitig das Risiko.

Man stelle sich etwa einen Kundensupport-Agenten vor, der je nach Prompt-Formulierung oder unbekannten Eingabedaten inkonsistent reagiert. Nach einer schlechten Kundenerfahrung oder einer gemeldeten Störung müssen Entwickler in der Lage sein, den genauen Auslöser des Problems nachzuvollziehen.

Doch inzwischen vollzieht sich ein tiefgreifender Wandel in der Welt des digitalen Betriebs. Mit LLMs und Agenten entstehen neue operative Aufgabenbereiche, die bestehende Disziplinen wie DevOps und ITOps sowohl ergänzen als auch ändern.

Trotz gewisser Überschneidungen handelt es sich nach wie vor um unterschiedliche und abgrenzbare Bereiche, die jedoch aufeinander aufbauen, je komplexer und leistungsfähiger das Unternehmen wird. Sie unterscheiden sich jeweils entscheidend in Bezug auf Observability, Bereitstellung, Versionskontrolle und Feedbackschleifen in Echtzeit.

Unternehmen, die weiterhin auf klassische Monitoring-Tools setzen, aber ihre Geschäftsprozesse nicht an die Gegebenheiten der neuen IT-Umgebung anpassen, sind möglicherweise nicht in der Lage, diese neuen Fehlerquellen zu bewältigen. Sie setzen sich somit Risiken wie Datenabfluss oder Performance-Drift aus. So könnte ein KI-gestützter Assistent aufgrund von Mängeln in seiner Speicherverwaltung beispielsweise veraltete Richtlinien vorschlagen oder nach einer Modellaktualisierung gesetzliche Vorschriften falsch interpretieren.

Zwar gibt es Anwendungsfälle für KI, doch der Weg zu einem signifikanten ROI oder einer unternehmensweiten Adoption, die zu einem echten Produktivitätsschub führt, verläuft selten reibungslos. Dies gelingt nur mit dem Fachwissen eines starken Operations-Teams im Hintergrund, das mit klaren Richtlinien und etablierten Resilienz-Prozessen arbeitet, die eine schnelle Problembehebung ermöglichen und systematisches Lernen aus Fehlern fördern.

Ein neues Resilienz-Playbook entwickeln

Wie immer entstehen auch hier neue Best Practices, wenn operative Gegebenheiten, geschäftliche Anforderungen und das Nutzerverhalten zusammentreffen. Aktuell stehen Shadow Deployments (die geschäftliche Risiken bergen), Live-Feedback-Zyklen (die Ressourcen belasten) und die kontinuierliche manuelle Feinabstimmung (die zu Alert-Fatigue und kognitiver Überlastung führt) ganz oben auf der Agenda.

In der Praxis setzen IT-Teams zunehmend auf Tools wie RAG-Pipelines (Retrieval Augmented Generation), die abrufbasierte Systeme mit LLMs kombinieren, um eine bessere Kontrolle zu ermöglichen. Ebenso wird mit Echtzeit-Telemetrie zur agentischen Entscheidungslogik gearbeitet, um Anomalien zu erkennen, bevor sie nach außen sichtbar werden.

So verlockend KI-Agenten mit dem Versprechen schneller und effizienter Geschäftsprozesse auch sind, ist es ratsam, „Human-in-the-Loop“-Systeme zu integrieren und auf bewährte Response-Automatisierungslösungen zurückzugreifen. Die Einführung von KI-Agenten sollte dabei schrittweise und sorgfältig erfolgen, damit etwaige Unvorhersehbarkeiten beobachtet, überwacht und mit einem geringeren Risikoprofil eingestuft werden können. In kritischen Bereichen regulierter Sektoren wie dem Gesundheitswesen oder dem Finanzsektor, in denen die Ergebnisse vor der Umsetzung auf Richtigkeit und Compliance geprüft werden müssen, ist menschliche Aufsicht unerlässlich.

Operations-Verantwortliche sollten sicherstellen, dass Workflows, die durch Fehlverhalten von Agenten oder Halluzinationen ausgelöst wurden, zur Echtzeit-Behebung erkannt und umgehend gestoppt werden können. Zudem muss gewährleistet sein, dass autorisierte automatisierte Routinen bei Bedarf eingreifen können, um eine Kettenreaktion zu verhindern. Die Verlangsamung von KI-Prozessen bei der Erkennung von Anomalien ist entscheidend, um zu vermeiden, dass sich Vorfälle weiter verstärken, ausbreiten und an Komplexität zunehmen.

Vor allem sollten Operations-Teams grundsätzlich sicherstellen, dass ihre Observability-Systeme vollständig unabhängig von den operativen Systemen sind. Das bedeutet eine klare und konsequente Trennung zwischen Überwachung und Incident Management, sodass Beobachtungs- und Analysefunktionen auch dann zuverlässig verfügbar bleiben, wenn produktive Systeme Fehlverhalten zeigen. Diese Entkopplung ermöglicht es den Verantwortlichen, auch in Störfällen fundiert und handlungssicher zu reagieren.

Zuverlässigkeit in einer nicht-deterministischen Welt erhöhen

Der intensive Branchenfokus auf KI-Innovationen und deren Einführung hat dazu geführt, dass sich AIOps zu einer eigenständigen und unverzichtbaren Disziplin entwickelt hat. Angesichts der zunehmenden Komplexität und Vernetzung von IT-Systemen – einschließlich Abhängigkeiten von Drittanbietern, Cloud-Diensten und unvorhersehbaren KI-Diensten – muss ein Schwerpunkt auf die technische Umsetzung von Zuverlässigkeit gelegt werden.

Die meisten Unternehmen verlassen sich mittlerweile auf cloudbasierte Modelle oder APIs von Anbietern, über die sie selbst keine Kontrolle haben. Änderungen oder Ausfälle in diesen vorgelagerten Systemen können Chaos in den nachgelagerten Bereichen verursachen. Dann sind die Operations-Teams gezwungen, Probleme außerhalb ihres Observability-Bereichs zu diagnostizieren.

Zukunftsorientierte Unternehmen müssen Zuverlässigkeit als aktiven und adaptiven Prozess begreifen. Zuverlässigkeit ist eine unternehmerische Tugend, die dem Schutz des Unternehmens und der Sicherung der Profitabilität dient, sie ermöglicht aber auch die Verbesserung von Kundenservice und Kundenbindung. Konkret sollten Metriken wie die Erkennungszeit bei KI-Anomalien, die Eskalationsrate von KI-Vorfällen sowie die Anzahl nicht autorisierter automatisierter Aktionen verfolgt werden, um die operative Risikoexposition und den Reifegrad zu messen.

KI verändert den IT-Betrieb grundlegend. Wer dabei nur die Chancen im Blick hat, ohne die operativen Risiken zu adressieren, wird früher oder später von der Komplexität eingeholt. Resilienz ist der Schlüssel – und sie beginnt mit den richtigen Prozessen, den richtigen Teams und der richtigen Denkweise.

Joao Freitas ist General Manager und Vice President of Engineering für KI und Automatisierung bei Pagerduty.

Pagerduty

Der blinde Fleck der KI-Adoption: Wer überwacht die Agenten?

Die Grenzen klassischer digitaler Betriebsmodelle

Ein neues Resilienz-Playbook entwickeln

Zuverlässigkeit in einer nicht-deterministischen Welt erhöhen

Lesen Sie auch