Die Weihnachtspause ist vorbei, und die erste skandalöse Nachricht des Wissenschaftsjahrs 2026 ließ nicht lange auf sich warten — wobei sie streng genommen bereits vor der Weihnachtspause veröffentlicht wurde: Mitte Dezember gab die Deutsche Forschungsgemeinschaft (DFG) bekannt (S'ouvre dans une nouvelle fenêtre), dass sie für die Begutachtung von Drittmittelanträgen zukünftig auch den Einsatz von KI-Tools erlauben will. Schon 2023 hatte die DFG die Nutzung solcher Tools beim Erstellen von Förderanträgen für zulässig erklärt, was sie in ihrer Pressemeldung aus dem Dezember nochmals bekräftigt. In der Meldung werden für die KI-Nutzung vier Prinzipien benannt:
„Vertraulichkeit: Eine Verarbeitung vertraulicher Antragsinhalte im Rahmen der Begutachtung ist nur zulässig, sofern sichergestellt ist, dass die Antragsinhalte von den Anbietern des KI-Systems nicht dauerhaft und über den konkreten Einsatzzweck hinaus gespeichert werden.
Transparenz: Gutachter*innen müssen die Nutzung von KI unter Nennung der spezifischen Einsatzzwecke offenlegen, damit der weitere Urteilsbildungsprozess (Bewertung und Entscheidung) in Kenntnis dessen erfolgen kann.
Qualitätssicherung: Eine kritische Prüfung aller KI-generierten Inhalte ist erforderlich und eine unreflektierte Übernahme von Inhalten verboten.
Verantwortung: Die inhaltliche Verantwortung für die Gutachten verbleibt vollständig bei den Gutachter*innen.“
Eine diesen Prinzipien folgende Leitlinie für die Begutachtung von DFG-Anträgen „soll voraussichtlich Ende des ersten Quartals 2026 veröffentlicht werden“, heißt es weiter.
Die Begeisterung der deutschen Wissenschaftscommunity über die Entscheidung der DFG hielt sich auf der Plattform Bluesky sehr in Grenzen, um es vorsichtig zu sagen. Ein Post von Simon Hammann (S'ouvre dans une nouvelle fenêtre) stieß dazu eine anhaltende Diskussion los, in der Wissenschaftler_innen vor allem Irritation und Entsetzen darüber äußern. Aber warum? Sind die vier Prinzipien nicht ein guter Rahmen „für einen verantwortungsvollen Umgang mit KI-Systemen in der Begutachtung“, wie es die DFG formuliert und wie auch Jan-Martin Wiarda meint (S'ouvre dans une nouvelle fenêtre)? Nun: Es stellt sich die Frage, ob eine angemessene Berücksichtigung dieser Prinzipien überhaupt realistisch und umsetzbar ist. Einige Überlegungen dazu möchte ich im heutigen Newsletter anstellen. Dabei werde ich — anders als Jan-Martin Wiarda in seinem Beitrag — die generellen Probleme der Drittmittelfinanzierung außen vor lassen: Ich stimme ihm zu, dass die dringend zu lösen wären, habe dazu allerdings an anderer Stelle schon vieles geschrieben, zum Beispiel hier (S'ouvre dans une nouvelle fenêtre). Selbst, wenn man die Forschungsförderung mittelfristig grundlegend reformieren würde (es wäre ebenso nötig wie wünschenswert), bliebe mindestens für die Übergangsphase bis zum Abschluss einer solchen Reform die Frage nach dem Umgang mit KI beim Stellen und Begutachten von Anträgen weiterhin bestehen.
Die doppelte Verantwortung der Gutachter_innen
Begutachten ist in der Wissenschaft eine Tätigkeit, die mit großer Verantwortung einhergeht — einer Verantwortung, die im Vergleich zu der, die beim Erstellen zu begutachtender Inhalte zum Tragen kommt, noch eine weitere Dimension umfasst. Beiden Tätigkeiten, dem Begutachten und dem Erstellen von Publikationen, Anträgen usw., die begutachtet werden, ist die Verantwortung gemein, die mit Urheber_innenschaft generell einhergeht: Antragsteller_innen müssen etwa sicherstellen, dass sie beim Ausarbeiten ihrer Anträge wissenschaftliche Redlichkeit an den Tag legen, dass sie keine Rechte Dritter verletzen, sich nicht durch vorgebliche Eigenleistung mittels Plagiaten Reputation erschleichen usw. Ähnliche Pflichten haben Gutachter_innen in ihrer Rolle als Urheber_innen ihrer Gutachten. Das Erschleichen von Reputation mag auf den ersten Blick bei ihnen eine geringere Rolle spielen, weil Gutachten in der Regel nicht für eine allgemeine Öffentlichkeit bestimmt sind. Gleichwohl können Gutachter_innen sich gegenüber den Förderinstitutionen, die sie beauftragen, sowie gegenüber den Peers, die ihre Anträge lesen, sehr wohl einen guten Ruf erarbeiten. Angesichts der verbreiteten Praxis in der Academia, wegen um sich greifender Arbeitsüberlastung Dinge zu spät zu liefern, mag dieser gute Ruf schon allein darin bestehen, einigermaßen rechtzeitig ein einigermaßen brauchbares Gutachten abzuliefern: Auch Gutachter_innen stehen oftmals unter Zeit- und (vor allem in früheren Karrierephasen) zugleich unter Leistungsdruck. Bei den Antragstellenden kommt noch hinzu, dass sie vielfach um ihre eigene Weiterbeschäftigung oder die ihrer Mitarbeitenden bangen und oftmals nur deshalb überhaupt Anträge schreiben — dementsprechend in vielen Fällen ebenfalls unter großem Zeit- und Leistungsdruck, auch hier zumeist bei übergroßer Arbeitsbelastung. Sowohl Antragstellende als auch Gutachter_innen haben also einen enormen Anreiz, möglichst viel von ihrer Arbeit durch KI-Tools erledigen zu lassen. Das damit einhergehende Risiko liegt auf der Hand und ist allgemein bekannt: Wer die Ergebnisse der KI nicht ausreichend prüft, droht gegen die Grundsätze guter wissenschaftlicher Praxis zu verstoßen. Die Verantwortung einer entsprechenden Prüfung hat die DFG für Gutachter_innen also zu Recht unter dem Stichwort „Qualitätssicherung“ in ihre Prinzipien aufgenommen.
Ich komme noch dazu, ob und wie eine adäquate Qualitätssicherung überhaupt sinnvoll erfolgen kann und wie realistisch dies ist. Zunächst aber möchte ich die zweite wichtige Verantwortungsdimension aufseiten der Gutachter_innen von Drittmittelanträgen benennen: den Umgang mit vertraulichen Inhalten Dritter, deren Preisgabe für diese Dritten massive Nachteile haben kann — vom Diebstahl ihres geistigen Eigentums bis hin zu gravierenden Karrierenachteilen. Gelangt ein origineller Forschungsansatz aus einem Antrag in die falschen Hände, dann wird die forschende Person, die ihn ausgearbeitet hat, möglicherweise darum betrogen, für diesen originellen Ansatz mit Reputation und Karrierechancen entlohnt zu werden — weil jemand anders die Idee klaut und umsetzt.
Antragsteller_innen haben praktisch keine Handhabe, sich gegen einen KI-Einsatz bei der Begutachtung und die damit verbundenen Gefahren zu wehren: Geben sie ihre Anträge aus der Hand, so müssen sie darauf hoffen, dass Gutachter_innen damit sorgsam umgehen und die Inhalte vertraulich behandeln. Hier wird KI-Einsatz potenziell zum Problem, wenn Inhalte aus den Anträgen, die die KI-Tools bearbeiten sollen, von den Anbietern weiter genutzt werden. Diesen Punkt sieht auch die DFG, wenn sie fordert, dass „sichergestellt ist, dass die Antragsinhalte von den Anbietern des KI-Systems nicht dauerhaft und über den konkreten Einsatzzweck hinaus gespeichert werden“. Jedoch ist damit zunächst nur an das Gewissen (und Wissen!) der Gutachter_innen appelliert, aber noch kein verlässliches Instrument geschaffen, um die Risiken für die Antragstellenden verlässlich auszuräumen. Letztlich kann auch kurzzeitiges Speichern schon zum Problem werden, denn das könnte ausreichen, um Inhalte aus der vertraulichen Sphäre in die Öffentlichkeit oder an bestimmte unberechtigte Dritte dringen zu lassen — ein Schaden wäre dann bereits entstanden, selbst, wenn die Daten anschließend gelöscht werden. Ob hier der Verweis auf den „konkreten Einsatzzweck“ ausreicht, um Entsprechendes zu verhindern, müssen kundige Jurist_innen einschätzen. Allerdings fragt sich außerdem, wann Gutachter_innen und DFG eigentlich davon ausgehen können, dass eine entsprechende Vertraulichkeit sichergestellt ist: Wenn die Tech-Konzerne behaupten, dies sei der Fall? Benjamin Paaßen wies auf Bluesky zu Recht darauf hin, dass der Anreiz für solche Konzerne extrem groß ist, die Daten dennoch zu verwerten (S'ouvre dans une nouvelle fenêtre) — eine Studie zeigt, wie berechtigt die Sorge um Daten ist (S'ouvre dans une nouvelle fenêtre). Selbst, wenn ein Konzern behauptet, die Daten nicht längerfristig zu speichern bzw. nicht für Trainingszwecke zu nutzen: Es lässt sich für Nutzer_innen kaum verlässlich prüfen, ob das stimmt.
Abgesehen von den Rechten der Antragsteller_innen, die durch KI-Einsatz potenziell bedroht sind, stellt sich zusätzlich die Frage, wie die Praxis bezüglich sicherheitsrelevanter Forschung gestaltet werden soll (das ist Forschung, deren Ergebnisse zu schädlichen Zwecken missbraucht werden können). Aus guten Gründen weist die Leopoldina in einem Papier zum Thema darauf hin (S'ouvre dans une nouvelle fenêtre), dass im Umgang mit dieser Art von Forschung besondere Vorsicht geboten ist: Es kann erforderlich sein, sie in Teilen oder vollständig geheim zu halten oder nur an einen ausgewählten Kreis von Adressat_innen zu kommunizieren, um einem Missbrauch vorzubeugen. Wie soll bei einer Auswertung von Anträgen mithilfe von KI-Tools hinreichend sichergestellt werden, dass diese Forschungsergebnisse nicht in falsche Hände gelangen? Das mag mit internen, von außen unzugänglichen KI-Eigenlösungen gelingen, aber mal ehrlich: Ist es wirklich wahrscheinlich, dass primär solche Lösungen zum Einsatz kommen, oder sind es am Ende nicht doch wieder die LLMs kommerzieller Anbieter, die genutzt werden, weil Gutachter_innen sie ohnehin schon regelmäßig für andere Zwecke verwenden?
Um es klar zu sagen: Die DFG-Entscheidung legitimiert eine Praxis, in der Antragsteller_innen zukünftig um ihre sensiblen Inhalte fürchten müssen, sobald sie einen DFG-Antrag einreichen. Mindestens sollte die DFG daher in ihren Leitlinien für Anträge zu sicherheitsrelevanter Forschung spezielle Auflagen machen und die Nutzung solcher Tools ausschließen, bei denen die Kontrolle über die Daten sich der Wissenschaftscommunity entzieht — der bloße Appell an die Verantwortung der Gutachter_innen individualisiert die bestehenden Probleme nur und setzt zudem ein Maß an AI Literacy in der gesamten Wissenschaftscommunity voraus, das erfahrungsgemäß so nicht gegeben ist. Empfehlenswert wäre eine entsprechende Einschränkung zulässiger Tools zudem im Hinblick auf zwei weitere Prinzipien, die die DFG vorsieht: Qualitätssicherung und Transparenz.

Angemessene Qualitätssicherung und erforderliche Transparenz: Wie sollen sie sichergestellt werden?
KI-Inhalte sollen gemäß dem Prinzip der Qualitätssicherung nicht „unreflektiert“ übernommen werden, so die DFG — eine Prüfung sei erforderlich. Es ist grundsätzlich unser Job als Wissenschaftler_innen, eine entsprechende Qualitätssicherung im Rahmen unserer Arbeit sicherzustellen. Benjamin Angerer verweist in diesem Zusammenhang auf Bluesky (S'ouvre dans une nouvelle fenêtre) zu Recht auf die Leitlinie 1 der DFG zu wissenschaftlicher Integrität, die eine Verpflichtung auf allgemeine Prinzipien beinhaltet — dort heißt es:
„Zu den Prinzipien gehört es insbesondere, lege artis zu arbeiten, strikte Ehrlichkeit im Hinblick auf die eigenen und die Beiträge Dritter zu wahren, alle Ergebnisse konsequent selbst anzuzweifeln sowie einen kritischen Diskurs in der wissenschaftlichen Gemeinschaft zuzulassen und zu fördern.“
Wie aber soll das gehen, fragt sich Benjamin Angerer (S'ouvre dans une nouvelle fenêtre), wenn LLMs zum Einsatz kommen? Dasselbe frage ich mich auch. Werden alle Tools, die bei Begutachtungen genutzt werden, eine zutreffende, erschöpfende Auskunft darüber ausgeben, welche Daten beim Erzeugen ihrer Ergebnisse verwertet wurden und ob diese Daten Beiträge Dritter enthalten? Wie soll ich die Ergebnisse als Gutachter_in „konsequent anzweifeln“, wenn ich nicht sicher sein kann, worauf genau sie basieren?
Die Qualitätssicherung ist die subjektive Seite der Medaille — hier soll ich als Wissenschaftler_in meinen Job ordentlich ausüben. Es gibt aber außerdem noch eine objektive Seite: Ich muss mich auch vor der Wissenschaftscommunity entsprechend verantworten, also deutlich machen, dass und wie ich meiner Verantwortung zur Qualitätssicherung nachgekommen bin. Das kommt im Stichwort „Transparenz“ zum Ausdruck.
Die Transparenzforderung im Hinblick auf den Einsatz von KI ist im akademischen Kontext natürlich nicht neu — dass man es angeben soll, wenn KI-Tools zum Einsatz gekommen sind, ist eine wichtige Forderung, keine Frage. Nur: Es greift sicherlich zu kurz, lediglich anzugeben, dass und wie KI genutzt wurde. Denn entscheidend für den „Urteilsbildungsprozess (Bewertung und Entscheidung)“, von dem die DFG schreibt, dürfte insbesondere sein, wie genau die KI-Tools zu ihren Ergebnissen gekommen sind – das heißt vor allem, welche Trainingsdaten dabei wie genutzt wurden. Auch hier stellt sich die Frage: Werden die KI-Tools, die Gutachter_innen in der Praxis nutzen, hier eine zuverlässige, wahrheitsgemäße Antwort geben? Und: Der Witz vieler KI-Tools ist ja gerade, dass sie auf riesige Datenmengen zurückgreifen. Selbst wenn die Tools einen zuverlässigen Einblick in diese Massen von Daten gewähren: Wie und wann soll es Gutachter_innen gelingen, sie zu überprüfen? Wie sollen sie kontrollieren, ob geschützte Inhalte Dritter darin enthalten sind, Fake News, Halluzinationen? Wer jetzt antwortet „das kann ja die KI machen“, hat nichts verstanden.
Die Erosion des Werts von Wahrheit, Expertise und Glaubwürdigkeit, brought to you by DFG
Ich sehe nicht, wie die Werte, für die die DFG als Institution und wir als Wissenschaftscommunity stehen, damit vereinbar sein sollen, KI für die Begutachtung oder Antragstellung zu nutzen — es sei denn, man gestaltet diese Nutzung sehr restriktiv, d.h. mit einer starken Beschränkung zulässiger Tools und Einsatzformen. Ansonsten dürfte der Knackpunkt dieser sein: Sofern wir als Gutachter_innen dem vierten Prinzip, dem der Verantwortung, wirklich gerecht werden wollen, müssten wir so viel zusätzliche Arbeit in die Überprüfung der von uns genutzten KI-Erzeugnisse stecken, dass der KI-Einsatz keine Zeitersparnis und keinen Effizienzgewinn mit sich bringt, im Gegenteil.
Nun könnte uns das natürlich auch alles egal sein — und diese Tendenz gibt es leider längst. Das Argument, hier mache sich die DFG nur „ehrlich“ in Bezug auf das, was schon gängige Praxis ist, greift zu kurz. Wir ändern auch nicht die Straßenverkehrsordnung, weil viele Leute ohnehin über rote Ampeln gehen. Warum nicht? Weil das Problem damit erwartbar größer wird und nicht kleiner. Das Risiko, leichtfertig darüber hinwegzusehen, dass etwa die KI-erzeugten „Zusammenfassungen“ bei Google sehr viel Nonsens und Falschinformationen enthalten, ist hoch — ich erwische mich selbst dabei, dass ich mich mit einiger Disziplin davon abhalten muss, diese Zusammenfassungen zu lesen und zu glauben. Da fängt es schon an damit, dass die Relevanz von Wahrheit in den Hintergrund gedrängt wird. Es wäre die Aufgabe von Institutionen wie der DFG, dieser Tendenz etwas entgegenzusetzen, indem sie den Wert von Glaubwürdigkeit, einer redlichen wissenschaftlichen Praxis und von Expertise hochhält. Wenn Wissenschaftler_innen hingegen ständig Teile ihrer Arbeit an KI-Tools outsourcen und das von der DFG erlaubt und normalisiert wird, ist dieser Wert zunehmend angezählt. Das ist nicht nur ein Problem für Wissenschaft und Bildung: Es gefährdet auch die Demokratie, denn Demokratiefeind_innen versuchen gezielt, die Relevanz von Wahrheit zu zerstören. Andreas Kemper schrieb vergangene Woche auf Bluesky (S'ouvre dans une nouvelle fenêtre):
„#Trump (S'ouvre dans une nouvelle fenêtre) lügt nicht, um zu täuschen. Er lügt, um das Konzept Wahrheit zu zerstören. Es geht ihm nicht um 2+2=5, sondern um 2+2="was-Trump-sagt". Die totale Zerstörung der Orientierung an Wahrheit oder auch nur an Wahrheitsfindung und ihre totalitäre Ersetzung durch Macht und Herrschaft. #Orwell (S'ouvre dans une nouvelle fenêtre)“
Gerade vor diesem Hintergrund sollten wir als Wissenschaftscommunity wirklich zusehen, dass wir nicht auch noch durch leichtfertige KI-Nutzung zu dieser Zerstörung beitragen: Dass KI nicht zwischen Wahrheit und Falschheit unterscheidet, ist keine Lappalie — die Relevanz der Wahrheit hochhalten ist auch ein Dienst an der Demokratie.