KI in der Cyberabwehr: UK-Pilotprojekt findet 407 Lücken in Behörden-Code
LGR Reutlingen – 15 Juni 2026 | Das britische Government Cyber Coordination Centre (GC3) hat in einem wegweisenden Pilotprojekt beeindruckende Ergebnisse erzielt: Mit Hilfe von Künstlicher Intelligenz wurden in öffentlichen Code-Repositorys von Behörden 407 Sicherheitslücken identifiziert. Diese Initiative zeigt nicht nur die Möglichkeiten der KI in der Cyberabwehr, sondern hebt auch die Herausforderungen und Chancen hervor, die mit dem Einsatz solcher Technologien in der staatlichen IT-Sicherheit verbunden sind.
Das GC3, eine Kooperation zwischen dem National Cyber Security Centre (NCSC) und dem Ministerium für Wissenschaft, Innovation und Technologie, hat im Rahmen des Government Cyber Action Plans mehrere Wochen lang wöchentliche Hackathons organisiert. Ziel war es, Sicherheitsanfälligkeiten in den öffentlich zugänglichen Codes von britischen Behörden frühzeitig zu entdecken, bevor Angreifer dies tun können.
Öffentlich zugängliche Codes bieten eine nützliche Testumgebung, da die britische Regierung den Standard verfolgt, neuen Quellcode offen zu veröffentlichen. Dies fördert die Transparenz und externe Prüfung, birgt jedoch auch Risiken, da potenzielle Angreifer den gleichen Zugang zu diesen Ressourcen haben. Die ausgewählten Codes waren ideal für die Anwendung in diesem Pilotprojekt, da sie ohne großen Datenschutzaufwand an externe Modellanbieter weitergegeben werden konnten.
Innovative Ansätze zur Identifizierung von Schwachstellen
Die Teams, die an dem Projekt arbeiteten, entwickelten verschiedene Ansätze zur Analyse der Codes. Ein zentraler Punkt des GC3-Berichts ist die Erkenntnis, dass die Architektur des Prüfsystems entscheidend ist, nicht unbedingt die Wahl des Modells. Drei Ansätze stachen dabei hervor:
- Adversarielle Agenten-Pipeline: Diese Pipeline durchlief sechs KI-Stufen, darunter Triage, Validierung und Bewertung. Eine manuelle Prüfung stellte sicher, dass jeder Befund von einem Menschen verifiziert wurde.
- Scanner und Modellanalyse: Traditionelle Tools wie Gitleaks und Semgrep lieferten priorisierte Rohdaten, auf denen dann KI-gestützte Modelle zur Entdeckung von Schwachstellen aufbauten.
- Wiederverwendbare Prüfskills: Eine Abteilung kodifizierte spezifische Prüfskills, die konsistent über mehrere Dienste hinweg eingesetzt werden konnten.
Die Teams entdeckten insgesamt 407 Schwachstellen. Diese umfassten kritische Sicherheitsanfälligkeiten wie unbefugten Zugriff auf Authentifizierungssysteme, Datenoffenlegungen und die Möglichkeit, schädlichen Code auszuführen. Während einige dieser Schwachstellen den Behörden bereits bekannt waren und durch Gegenmaßnahmen entschärft wurden, waren andere zuvor nicht dokumentiert. Alle als ausnutzbar eingestuften Probleme wurden inzwischen behoben, und es gab keine Hinweise auf eine aktive Ausnutzung dieser Lücken.
Lernen aus den Ergebnissen
Das Pilotprojekt lieferte mehrere wichtige Erkenntnisse für die künftige Verwendung von KI in der Cyberabwehr. Ein zentrales Ergebnis war, dass die Architektur des Prüfsystems und nicht die technische Überlegenheit des Modells entscheidend für den Erfolg war. Viele moderne KI-Modelle können bei strukturierten Code-Audits vergleichbare Ergebnisse erzielen, wenn sie in einem klar definierten Rahmen eingesetzt werden.
Ein weiteres wichtiges Thema war die Triage der gefundenen Schwachstellen. Die KI-gestützten Agenten produzierten potenzielle Befunde in einem Tempo, das menschliche Prüfer überforderte. Ohne klare Vorgaben und interne Filterung bestand die Gefahr, dass Sicherheitsteams überlastet wurden. Es ist entscheidend, die begrenzten menschlichen Ressourcen dort einzusetzen, wo der größte Handlungsbedarf besteht.
Ein konkretes Beispiel aus den Ergebnissen des Projekts verdeutlicht den Unterschied zu traditionellen Scanning-Tools: In einem Repository wurde eine veraltete Konfiguration gefunden, die es externen Nutzern ermöglichte, durch einen speziellen Kommentar in einem Pull-Request eine Workflow-Kette auszulösen. Diese Schwachstelle war besonders gefährlich, da die üblichen Schutzmaßnahmen in diesem Fall nicht griffen.
Die Erkenntnisse aus dem Projekt verdeutlichen, dass das Finden und Beheben von Schwachstellen zwei unterschiedliche Schritte sind. Auch nach der Identifizierung muss der Befund in die bestehende Patch-Pipeline integriert werden. Während KI bei der Priorisierung und Generierung von Patches eine wertvolle Unterstützung bieten kann, bleibt die tatsächliche Korrektur weiterhin in der Verantwortung menschlicher Teams.
Für die Zukunft plant das GC3, die zweite Phase des Pilotprojekts zu starten. Dabei sollen weitere Behörden einbezogen werden, zusätzliche Modelle getestet und nicht-öffentliche Codebasen in die Analyse einbezogen werden. AISI und NCSC werden dabei eng zusammenarbeiten, um die Lücke zwischen theoretischen Benchmarks und tatsächlicher Risikominderung weiter zu schließen.
Diese Initiative zeigt, dass der Wert von KI in der Cyberabwehr weniger von der Modellleistung abhängt, sondern vielmehr von einer klaren Strukturierung des Einsatzes. Klare Abgrenzungen, strukturierte Pipelines und menschliche Prüfungen an den richtigen Stellen sind entscheidend für den Erfolg. Die Lehren aus diesem Pilotprojekt könnten nicht nur für die britische Regierung, sondern auch für andere Länder von Bedeutung sein, die ähnliche Technologien in der Cyberabwehr implementieren möchten.






