KI-Agenten wie Codex und Claude Code schreiben immer mehr Frontend-Code. Sie generieren Formulare, Dialoge, Navigationen und ganze Interface-Komponenten in Sekunden. Was dabei kaum systematisch untersucht wurde: Wie zuverlässig sind diese Systeme, wenn es um digitale Barrierefreiheit geht?
Mit WebAccessBench veröffentliche ich einen Benchmark, der genau diese Frage empirisch untersucht.
Was wurde getestet?
Aktuell (Stand 20. Februar 2026) wurden 19 Sprachmodelle anhand von 150 realistischen UI-Aufgaben geprüft. Jede Aufgabe wurde unter drei Prompt-Bedingungen ausgeführt:
ohne Hinweis auf Barrierefreiheit
mit einfacher Aufforderung („Make it accessible“)
mit detaillierten Anforderungen je nach Aufgabe
Die Analyse erfolgte automatisiert mit standardisierten und WCAG-orientierten Prüfwerkzeugen.
Ergebnisse
KI-Modelle erzeugen auch bei expliziter Aufforderung zur Schaffung von Barrierefreiheit regelmäßig einfach auffindbare und somit vermeidbare Barrieren.
Einfache Accessibility-Hinweise verbessern die Ergebnisse um ca. 50 %. Spezialisierte Anweisungen sorgen verglichen damit für keine weitere Verbesserung.
Verglichen mit großen Stichproben realer Webseiten zeigen KI-generierte Interfaces eine höhere strukturelle Fehlerdichte, was große gesellschaftliche Implikationen insbesondere für Menschen mit Behinderung anzeigt.
Gesellschaftliche Relevanz
LLMs werden zunehmend in Entwicklungsprozesse integriert. Wenn Barrieren systematisch mitgeneriert werden, skalieren diese mit und finden ihren Weg in immer mehr Anwendungen, mit denen Nutzer*innen regelmäßig interagieren.
Barrierefreiheit ist kein optionales Qualitätsmerkmal, sondern Voraussetzung für gesellschaftliche Teilhabe und auch gesetzliche Vorschrift in großen Teilen der Welt. Automatisierung durch KI ohne menschliche Qualitätssicherung reproduziert jahrzehntelang gefestigte strukturell Ausschlüsse und verschlimmert diese zunehmend.
Das vollständige Whitepaper mit Methodik, Metriken und Kohortenvergleich ist öffentlich verfügbar, ebenso eine Visualisierung der Ergebnisse.
WebAccessBench ist kein endgültiges Urteil, sondern als Messinstrument. Ziel ist eine datenbasierte Diskussion darüber, wie KI-gestützte Softwareentwicklung gestaltet werden muss, damit sie nicht neue Barrieren schafft.
Weitere Informationen, Ergebnisse und Daten finden sich hier:
https://conesible.de/wab/ (Si apre in una nuova finestra)