Zum Hauptinhalt springen

Newsletter #5 Wie Daten Wirklichkeit formen

Eine Bohrinsel, auf der Daten verarbeitet werden
Illustration erstellt mit Midjourney

In der letzten Folge #4 haben wir uns mit der materiellen Basis von KI beschäftigt, den seltenen Erden, der massiven Energiebilanz und vielfach weitgehend unsichtbaren, ausbeuterischen Arbeitsbedingungen. Mit dem weitgehend Unsichtbaren geht es in dieser Folge weiter. Diesmal konzentrieren wir uns auf Daten. Ihrer Gewinnung, ihrer Weiterverarbeitung, ihrer Klassifizierung.

Hier (Öffnet in neuem Fenster) findest Du den aktuellen Videocast.

Es geht darum, wie Daten Wirklichkeit formen.
Künstliche Intelligenz verspricht uns eine "objektive" Perspektive, einen neutralen Zugang zu Weltwissen. Aber wie "neutral" ist diese neue "Wirklichkeit" wirklich? Und wie immer geht es uns hier darum, was KI und die dahinter liegende stille Datenarchitecktur mit Dir und mir macht. Wie sich dadurch unsere Welterfahrung verändert. Und wie wir uns aktiv damit auseinandersetzen können.

Trainingsdaten - Extraktion

In der letzten Folge war "Ausbeutung" der rote Faden, der sich durch die ganze Entwicklungsgeschichte von KI zog. Von Rohstoffen und Menschen. Und jetzt geht es mit Daten weiter. Die Quelle, auf die wir uns maßgeblich berufen, ist Kate Crawfords Atlas of KI (Öffnet in neuem Fenster) (2021).

Ausbeutung ist auch hier der rote Faden: Die meisten Trainingsdaten werden ohne Einwilligung der Urheber genutzt. Erst seit wenigen Jahren gibt es eine breitere Diskussion rund um ethische Fragen und Bestrebungen den Umgang mit Daten etwas zu regulieren. Aber bis heute gibt es keine Richtlinien und standardisierte Praktiken, woher Daten kommen und wie man damit umgeht.

Ein kurzer Blick in die Geschichte des Datensammelns

Das Sammeln von Daten und deren Klassifikation reicht natürlich weit in die menschliche Geschichte hinein. Da gab es Volkszählungen, Kriminalregister, Anthropometrische Messungen von Schädel, Gesichter, Körper. Zweck dieser Sammlungen war immer auch, dass die Gesellschaft durch Messung und Statistik regierbar wird. Gerade mit der Entstehung der Nationalstaaten, Imperialismus und Kolonialismus explodierten die Versuche große Menschenmengen zu kategorisieren und Menschen dadurch zu kontrollieren. Damit verbunden war die Vorstellung, dass es so etwas wie "Normalität" und Durchschnittsmenschen gibt, während Abweichungen von diesen sanktioniert wurden. Daten dienten der Vorhersage und Steuerung komplexer Systeme.

Mit Aufkommen von Computern seit den 1970er Jahren wurden diese Daten systematisch registriert. Große Datenbanken wurden aufgebaut um bürokratische Informationen dauerhaft zu speichern. und dienten der Verwaltung. Die Daten stammten aus Melderegistern, Steuerunterlagen, aber auch von Banken und Kreditbüros, Krankenhäusern und Versicherungen. Digitale Register & Verwaltungsdaten waren stark strukturiert und regelbasiert.

Die ersten systematischen Bildarchive wurden seit den frühen 1990ern, mit der Entstehung des World Wide Web (1989) aufgebaut. Dafür wurden alte, analoge Archive ins Digitale übertragen und dienten als„Trainingsmasse“ für KI-Modelle. Darunter waren Polizeiaufnahmen, standardisierte Portraitaufnahmen von Verdächtigen, die sich zum Training und zur Evaluierung von Gesichtserkennungsalgorithmen eigneten. Zwischen 1993-96 erstellte das US Militär die FERET Datenbank, eine systematische Datenbasis von 850 Menschen, zum Ziel Gesichter maschinell zu erkennen.

Mit der weltweiten Verbreitung des WWW kamen wichtige neue Datenquellen auf: Daten, die Menschen nicht absichtlich, sondern nebenbei - durch Klicks, Suchanfragen, Chatprotokolle, Cookies etc - erzeugten. Neben diesen Abfallprodukten entstanden noch eine große Menge von Datensätzen z.B. durch E-Mails. In den frühen 2000ern hatten KI-Forscher beispielsweise Zugriff auf eine halbe Millionen E-Mails aus den Betrugsermittlungen im Falle von Enron, dem größten Konkurs in der amerikanischen Geschichte.

Ab 2005, mit dem Aufkommen der großen Social Media Plattformen, explodiert die bislang eher mühsam zusammengeklaubte Datenbasis. Innerhalb von wenigen Jahren wächst die Datenmenge durch Social Media Plattformen und Smartphones exponentiell. 2019 wurden an einem beliebigen Tag ca. 350 Millionen Fotos auf Facebook hochgeladen und 500 Millionen Tweets versendet. Alles wurde zum Trainingscamp von KI.

Eines der ersten bedeutsamen Trainingssets für Bilder war Image-Net (Öffnet in neuem Fenster). „We are going to map out the entire world of objects“ sagte Gründerin Fei Fei Li. Innerhalb von wenigen Jahren akkumulieren sich 3 Milliarden Fotos auf Flickr, 3 Milliarden Videos auf Youtube, und noch mehr von Google search Database. Ohne diese Phase der "kostenlosen" Datenexplosion gäbe es keine heutige KI.

Neutrale Darstellung von Wirklichkeit?

Forscher:innen und Technolog:innen betrachteten die gesammelten Texte und Bilder lange als neutrale Rohsammlungen. Als Material, das sich beliebig zerlegen, sortieren und in zehntausende Kategorien einteilen ließ. Die Annahme von Neutralität war dabei zentral: Daten galten als vor-sozial, vor-politisch, vor-ethisch. Entsprechend selten wurden in dieser Boomphase grundsätzliche ethische Fragen zur Datennutzung gestellt.

Anfangs versuchte man, die Daten mit Hilfe von Studierenden zu annotieren. Doch das erwies sich schnell als zu teuer. Stattdessen verlagerte man die Arbeit in den globalen digitalen Niedriglohnsektor: Mikrojobs, verteilt über Plattformen wie Amazon Mechanical Turk. Menschen sortierten dort fünfzig Bilder pro Minute – in vorgegebene Kategorien, die teils offen rassistisch, sexistisch oder entmenschlichend waren. „Affenmensch“, „Nutte“, „Schlitzohr“. Diese Praxis wurde nicht als Skandal wahrgenommen, sondern als Effizienzgewinn. Sie etablierte sich rasch als Branchenstandard.

Parallel setzte sich eine neue Metapher durch: Data Mining. Daten als das neue Öl. In diesem Denken verloren Daten ihren Bezug zu konkreten Menschen. Sie galten nicht mehr als persönliche, situierte, verletzliche Informationen, sondern als isolierte, tote Ressource. Etwas Abstraktes, Immaterielles – und damit als herrenlos oder zumindest frei verfügbar für jene, die sie extrahieren konnten. Kategorien wie Einwilligung, Fürsorge, Kontext oder Risiko verschwanden aus dem Blick.

Auf dieser Grundlage wurden öffentliche Räume ebenso wie staatliche Datenbanken systematisch ausgeschlachtet: Bilder aus dem Internet, Polizeidaten, biometrische Archive. Sie dienten dazu, Gesichtserkennungssysteme zu trainieren, Versicherungsprämien zu berechnen oder polizeiliche Eingriffe vorhersagbar zu machen. Die Haltung dahinter lässt sich in einem Satz zusammenfassen, den Marion Fourcade und Kieran Healy (Öffnet in neuem Fenster) prägnant beschrieben haben: We do these things, because we can. Wir sammeln alles – irgendwann, irgendwo wird es schon nützlich sein.

Dass dieses Vorgehen massive Missbrauchspotenziale birgt, zeigte sich früh. 2013 wurde ein Datensatz mit 173 Millionen einzelnen Taxifahrten aus New York veröffentlicht – inklusive Fahrtrouten, Gebühren und Trinkgeldern. In Kombination mit anderen Datenquellen ließen sich einzelne Fahrgäste identifizieren: Schauspieler:innen, Politiker:innen, Prominente, inklusive ihrer nächtlichen Wege in Stripclubs oder Hotels. Derselbe Datensatz wurde genutzt, um Taxifahrer zu identifizieren, die als gläubige Muslime galten – erkennbar daran, dass sie ihre Fahrten zu Gebetszeiten unterbrachen.

Der rote Faden all dieser Beispiele ist kein technischer Fehler, sondern eine Grundannahme: die unhinterfragte Überzeugung, dass alles Daten sind – und dass alles zur Verfügung steht. Unabhängig davon, was oder wen diese Daten zeigen.

So hat die KI-Industrie einen rücksichtslosen Pragmatismus kultiviert. Minimale, oft formale Zustimmung auf der einen Seite; auf der anderen die Erzählung, dass massenhafte Datenerfassung notwendig oder zumindest gerechtfertigt sei, um leistungsfähige und profitable KI-Systeme zu bauen. Der Zweck heiligt die Mittel.

Doch diese Logik wirft eine grundsätzliche Frage auf: Wer hat am meisten von dieser Transformation profitiert? Die Antwort ist unbequem. Denn die Gesetze der Extraktion prägen auch die Gesetze der Daten – und sie reproduzieren Machtverhältnisse, lange bevor ein Modell trainiert wird.

Wie gehen wir aus der Perspektive von Nutzer:innen mit diesen Datenpraktiken um?

Die meisten von uns wissen – zumindest in groben Zügen –, dass große Unternehmen unsere Daten nutzen und damit Profite erzielen, vor allem über Werbung. Die vermeintlich „kostenlosen“ Produkte von Facebook oder Google waren nie wirklich kostenlos. Spätestens seit den frühen 2010er-Jahren kursierte der Satz: Wenn du nichts zahlst, bist du das Produkt.

Und doch stellen auch wir, Bettina und Joana, im Gespräch fest, wie lange wir selbst unsere Daten vergleichsweise unbeschwert Plattformen wie Twitter, Facebook, Instagram oder Google überlassen haben.

Ein Grund dafür liegt in der Diskrepanz zwischen gefühltem Nutzen und wahrgenommenem Schaden. Der Schaden durch „gestohlene“ oder extrahierte Daten bleibt meist abstrakt und diffus. Es fällt schwer, einen konkreten persönlichen Verlust zu spüren, wenn die eigenen Daten in einem riesigen, anonymisierten Trainingsdatensatz verschwinden. Der Nutzen der Plattformen oder von KI-Systemen hingegen zeigt sich unmittelbar und greifbar: bessere Suchergebnisse, praktische Werkzeuge, soziale Anschlussfähigkeit.

Hinzu kommt ein psychologischer Effekt: Menschen gewichten Verluste zwar stärker als Gewinne – doch nur dann, wenn sie diese Verluste klar erkennen können. Bleibt der Verlust vage und unsichtbar, während der Nutzen konkret und hoch erscheint, steigt die Bereitschaft zur Akzeptanz. So normalisieren sich Datenpraktiken, die wir bei näherem Hinsehen vielleicht längst problematisch finden.

Diese Akzeptanz speist sich jedoch nicht nur aus abstrakten Kosten-Nutzen-Abwägungen, sondern auch aus einer sehr konkreten historischen Erfahrung.

Joana kann für sich feststellen, dass sie in den frühen Jahren des WWW so sehr von den Möglichkeiten der neuen Technologien begeistert war, dass sie deren Risiken deutlich unterschätzte. Die Aussicht auf massenhafte Partizipation, auf neue Formen von Öffentlichkeit und Teilhabe am weltweiten Diskurs schien bestehende Machtasymmetrien zumindest potenziell aufzulösen. Bücher wie Clay Shirkys’ Here Comes Everybody (Öffnet in neuem Fenster) oder Jeff Jarvis’ What Would Google Do? (Öffnet in neuem Fenster) vermittelten einen ausgeprägten Tech-Optimismus – und machten es leicht, ethische Bedenken zunächst in den Hintergrund zu schieben.

Diese Dynamik wirkt bis heute fort. Wenn Nutzer:innen erleben, wie flüssig, kompetent und scheinbar souverän KI-Modelle antworten, entsteht ein Gefühl von Autorität und Verlässlichkeit. Die Systeme wirken wissend – und genau diese Wirkung schwächt die kritische Auseinandersetzung mit ihren Trainingsgrundlagen, ihren Datenquellen und ihren impliziten Annahmen.

Als später immer deutlicher wurde, wie systematisch Daten für Überwachungskapitalismus, Marktkonzentration und monopolartige Strukturen genutzt werden, hatte sich die Macht großer Technologieunternehmen bereits so weit verfestigt, dass viele Menschen – wir eingeschlossen – nicht mehr an die eigene Wirksamkeit glaubten. Aus anfänglicher Euphorie wurde Resignation. Das Gefühl von Ohnmacht begünstigt die Akzeptanz des Status quo: Die Kosten des Widerstands – etwa der Verzicht auf bequeme, allgegenwärtige Technologien – erscheinen höher als die Kosten des Duldens.

So schließt sich der Kreis: Begeisterung, Gewöhnung und Ohnmacht bilden gemeinsam einen stillen, aber stabilen Unterbau für Datenpraktiken, die wir rational vielleicht kritisieren – und praktisch dennoch mittragen.

Warum also gehen Technologieunternehmen nicht verantwortungsbewusster mit Daten um?

Ein zentraler Grund liegt im technologischen Imperativ selbst. Die Leistungsfähigkeit großer KI-Modelle korreliert direkt mit der Menge und Vielfalt der Trainingsdaten. Mehr Daten bedeuten bessere Ergebnisse, größere Generalisierungsfähigkeit, mehr Anwendungsfälle. Wer sich freiwillig beschränkt, produziert ein schlechteres Modell. In einem Umfeld, in dem die Konkurrenz mit zehn Billionen Tokens trainiert, erscheint es irrational, bei fünf stehen zu bleiben. Daten sind der Rohstoff der KI – sich selbst zu limitieren hieße, den eigenen Grundstoff künstlich zu verknappen.

Hinzu kommt der ökonomische Wettbewerbsdruck. Die Entwicklung von KI ist ein globaler Hochgeschwindigkeitswettlauf, in dem wenige Akteure um Marktführerschaft ringen. Gerade bei Basismodellen gilt eine „Winner-takes-all“-Logik: Wer zuerst das leistungsfähigste System baut, setzt Standards, zieht Kapital an und verdrängt andere. In diesem Kontext werden ethische Bedenken schnell zu Standortnachteilen. Eine sorgfältige, zustimmungsbasierte Datenerhebung – mit Lizenzen, Opt-ins und klaren Urheberrechten – wäre nicht nur extrem aufwendig, sondern auch teuer. Ökonomisch ist es oft günstiger, Daten massenhaft zu extrahieren und sich später mit den rechtlichen Folgen auseinanderzusetzen.

Diese Dynamik wird durch regulatorische Grauzonen weiter verstärkt. Viele rechtliche Fragen, etwa zum Urheberrecht oder zum Text- und Data-Mining, sind noch nicht abschließend geklärt. Unternehmen nutzen diese Unsicherheiten gezielt aus und berufen sich auf berechtigte Interessen oder fehlende Präzedenzfälle. Regulierung reagiert bislang meist auf bestehende Geschäftsmodelle, statt sie präventiv zu begrenzen. So entsteht ein faktisches Vakuum, in dem Unternehmen handeln – in der Hoffnung, dass spätere Gesetze den etablierten Status quo nicht mehr grundlegend infrage stellen.

Regulierung und ethische Rahmung entwickeln sich

Ein kurzer Blick auf die Entwicklung von Regulierung zeigt jedoch, dass dieser Zustand kein fixer ist. In ihren frühen Jahren galt KI-Forschung an Universitäten vor allem als technisches Unterfangen. Ethik spielte kaum eine Rolle. Während sozialwissenschaftliche Fakultäten seit Langem mit Ethikkommissionen arbeiteten, waren Mathematik, Statistik und Informatik davon weitgehend ausgenommen – auch deshalb, weil man dort traditionell keine direkte Interaktion mit Menschen vermutete.

Mit dem Aufkommen großer, realweltlicher Datensätze wurde jedoch deutlich, dass KI-Forschung sehr wohl mit echten Menschen arbeitet – oft ohne deren Wissen oder Einwilligung. In der Folge entstanden erste Auflagen: Minimierung personenbezogener Daten, Zweckbindung, Löschkonzepte, Anonymisierungspflichten. Selbst etablierte Gesichtsdatenbanken wie FERET wurden daraufhin überprüft, ob ihr Einsatz noch vertretbar ist.

Ab etwa 2015 begannen Universitäten und Fachgesellschaften, eigene KI-spezifische Ethikrichtlinien zu entwickeln. Themen wie algorithmische Diskriminierung, Gesichtserkennung und Massenüberwachung rückten in den Fokus, Ethik-Beiräte wurden eingerichtet. Heute sind die Anforderungen deutlich konkreter: Viele Forschungsvorhaben mit sensiblen oder personenbezogenen Daten müssen Ethik-Boards einbeziehen. Hinzu kommen neue Instrumente wie sogenannte Model Cards – standardisierte Steckbriefe für KI-Modelle, die Trainingsdaten, Einsatzgrenzen, Risiken und mögliche Benachteiligungen transparent machen.

Eine weitere Zäsur markiert der europäische AI Act. Er wirkt bereits jetzt wie ein neues Grundgesetz für KI-Governance in Europa – auch für die Forschung. Hochschulen müssen sich zunehmend mit Risikoklassifizierungen auseinandersetzen: Hochrisiko-KI darf nur unter strengen Auflagen erforscht werden, biometrische Identifikation gilt als besonders sensibel, generative Modelle unterliegen Transparenz- und Dokumentationspflichten. Begleitet wird dies durch sogenannte Regulatory Sandboxes, die Forschung unter regulatorischer Aufsicht ermöglichen. All das macht deutlich: Unser Thema ist kein abgeschlossenes Kapitel, sondern Teil eines laufenden Aushandlungsprozesses – technisch, ethisch und politisch zugleich.

Verzerrte Wirklichkeit

Soweit zur Datensammlung. Doch selbst wenn wir diesen Teil ausblenden, bleibt ein noch grundlegenderes Problem. Die Wirklichkeit, die uns KI auf Basis extrahierter Daten präsentiert, ist keineswegs neutral. Sie ist gefiltert, verzerrt – und sie weiß nichts von dem, was sie ausblendet.

KI-Systeme lernen aus Daten, die bereits gesellschaftlich vorgeprägt sind. Sie übernehmen diese Prägungen, ohne sie reflektieren zu können. Was fehlt, wird nicht als Lücke erkannt, sondern als Normalität behandelt. So reproduzieren die Modelle dominante Perspektiven und verstärken bestehende Verzerrungen – Fragmentierung wird nicht gemildert, sondern potenziert.

Das zeigt sich besonders deutlich in der Bildgenerierung. Ich erlebe immer wieder, wie hartnäckig stereotype Darstellungen zurückkehren: von Frauen, von Aktivist:innen, von Unternehmer:innen. Werkzeuge wie Midjourney variieren die Oberfläche, nicht aber die zugrunde liegenden Muster. Klassifikationssysteme tragen diese Verzerrungen tief in sich – Rassismus, Sexismus, Klassismus sind darin nicht Ausnahmen, sondern strukturelle Effekte.

Dass diese Verzerrungen reale Folgen haben, ist gut dokumentiert. Noch vor wenigen Jahren enthielten gängige Datensätze offen diskriminierende Kategorien, etwa rassistische Bezeichnungen für asiatische Gesichter oder sexualisierte Klassifizierungen von Frauen. Gleichzeitig bleiben marginalisierte Gruppen systematisch unterrepräsentiert. Trainingsdaten spiegeln historisch gewachsene Machtverhältnisse – und machen sie technisch wirksam.

0 Kommentare

Möchtest du den ersten Kommentar schreiben?
Werde Mitglied von Agent Mensch und starte die Unterhaltung.
Mitglied werden