“KI-Tools im Schulunterricht?” – Beitrag bei Deutschlandfunk Kultur, Politisches Feuilleton

Meine Position zu den Risiken und Unzulänglichkeiten automatisierter Feedback- und Bewertungstools im Schulunterricht: Radiobeitrag am 25.09.2025, 7:20 Uhr, Deutschlandfunk Kultur.

Radio-Beitrag zum Nachlesen

Anmoderation: “Künstliche Intelligenz“ in der Bildung – ist das die Lösung für den Lehrermangel und überlastete Schulen? Viele glauben daran und setzen große Hoffnungen in K.I.-Tools, die Unterricht und Bewertung revolutionieren sollen. Der K.I.-Theoretiker Rainer Mühlhoff erwartet jedoch, dass der Hype zu groß ist und die Realität ganz anders aussehen wird.

Seit der Veröffentlichung von ChatGPT gibt es in Deutschland einen regelrechten Boom um sogenannte K.I.-Tools für den Schulunterricht. Das können Chatbots als Lerntutoren sein, die den Schüler:innen die Hausaufgaben erklären, oder Tools für Lehrkräfte, die Unterrichtskonzepte erstellen, Feedback auf Hausaufgaben generieren oder automatisch Klassenarbeiten bewerten.

Das Versprechen, K.I. könne komplexe und pädagogisch sensible Aufgaben wie individuelle Verbesserungsvorschläge oder Leistungsbeurteilungen übernehmen, liegt wohl im Zeitgeist des Hypes um die neue Technologie – der uns daran glauben macht, K.I. könne so ungefähr alles. Dieser Optimismus trifft beim Thema Bildung auf ein Schulsystem, das über der Kapazitätsgrenze arbeitet, mit Lehrkräftemangel und steigenden Klassenstärken kämpft, und seit Jahrzehnten notorisch unterfinanziert ist.

Eigentlich ist der Zustand unseres Bildungssystems ein politisch gemachtes Problem. Doch genau in so einer verfahrenen Situation wird es oft als besonders attraktiv dargestellt, eine technologische und damit vermeintlich entpolitisierende Lösung anzustreben. Mehr als die Hälfte der Bundesländer hat – teilweise mit weit siebenstelligen Geldbeträgen pro Jahr – in K.I.-Tools für ihre Lehrkräfte investiert, anstatt auf mehr Personal zur Lösung unserer Probleme zu setzen.

Wir haben uns am Lehrstuhl Ethik der Künstlichen Intelligenz an der Universität Osnabrück die drei am meisten verbreiteten K.I.-Tools für automatisiertes Feedback und automatisierte Bewertung genauer angeschaut. Das Ergebnis ist bedenklich: Bewertungen desselben Texts schwanken um mehrere Noten, wenn man sie einfach wiederholt – fast als würden sie ausgewürfelt werden. Verbales Feedback bleibt allgemein und floskelhaft, in einigen Fällen rät es zur Verwendung falscher Informationen. Wenn wir den Verbesserungsvorschlägen der K.I. gefolgt sind, ist es uns in keinem unserer Tests gelungen, unsere Note zu verbessern. Eine ähnliche Studie an der Universität Flensburg bestätigte dies und zeigte zudem, dass keines der gängigen Tools zuverlässig Falschinformationen oder verfassungsfeindliche Inhalte erkennt.

Die K.I.-Tools für den Schulunterricht, die meist von kleineren deutschen Unternehmen angeboten werden, verwenden im Hintergrund die großen Sprachmodelle globaler Unternehmen wie openAI und Microsoft. Wer schon einmal ein bisschen ChatGPT verwendet hat, der weiß, dass diese K.I.-Dienste gerne dazu neigen, „herumzufabulieren“ – also gut klingenden aber mitunter unsinnigen Output zu produzieren –, Fakten zu erfinden oder sich selbst zu widersprechen. Technisch betrachtet ist das gar nicht erstaunlich, denn große Sprachmodelle sind statistische Programme. Sie arbeiten so, dass sie immer das wahrscheinlichste nächste Wort einer Wörterkette berechnen, so dass dabei ganze Sätze herauskommen – ohne den Sinn dieser Sätze zu verstehen.

Was Chatbots produzieren ist deshalb technisch betrachtet ein statistisches Mittelmaß: Was eben am plausibelsten klingt – um sich “durchzuwurschteln” sozusagen. Ist das aber der Maßstab, an dem wir unsere Schüler:innen messen wollen?

Sollte die Schule nicht vielmehr dazu anleiten, die Welt zu erkennen, die Fakten zu ergründen und den Mut zu fassen, sich des eigenen Verstandes zu bedienen? Anstatt über maschinelles Feedback die Schüler:innen darauf zu dressieren, dass ihre “Outputs” immer perfekter der statistischen Mittelmäßigkeit einer KI entsprechen?

Die Kapazitätsprobleme im Schulsystem werden solche K.I.-Systeme übrigens auch nicht lösen. Denn erstens, wie Lehrkräfte immer wieder berichten, kostet es verdammt viel Zeit, die Outputs dieser Feedback- und Bewertungstools zu überprüfen, bevor man sie an die Schüler:innen weiterleiten kann. Und zweitens müssen wir damit rechnen, dass jeder Zeitgewinn durch die Lehrkräfte damit bezahlt werden wird, dass sie noch mehr Klassen, Schüler:innen und Aufgaben übernehmen müssen.

Literaturhinweis

  1. Mühlhoff, Rainer, und Marte Henningsen. 2024. „Chatbots im Schulunterricht: Wir testen das Fobizz-Tool zur automatischen Bewertung von Hausaufgaben“. doi:10.48550/arXiv.2412.06651.

Datum: