Wer kann schon von sich sagen, ein Gedankengang gehöre ihm?

Bert Brecht hielt nicht viel vom Recht auf geistiges Eigentum. Wir auch nicht. Wir stellen die SoZ kostenlos ins Netz, damit möglichst viele Menschen das darin enthaltene Wissen nutzen und weiterverbreiten. Das heißt jedoch nicht, dass dies nicht Arbeit sei, die honoriert werden muss, weil Menschen davon leben.

Hier können Sie jetzt Spenden
PDF Version Artikellink per Mail  | Soz Nr. 07/2024

An den Rand notiert
von Rolf Euler

Die Entwicklung von Künstlicher Intelligenz und ihrer Anwendungen zieht mächtig an. Jeder der großen IT-Konzerne, aber auch kleinere Firmen, überbieten sich mit Chat-, Sprach-, Bild- und Programmiererzeugung per KI. Inzwischen haben Google, Microsoft, Meta und Apple ein Problem: Es fehlen Trainingsdaten für die Weiterentwicklung der selbstlernenden Programme.

Chat GPT und andere beruhen auf einer riesigen Datenbasis. Alles was jemals im Internet veröffentlicht wurde, zusätzlich viele historischen Bücher, Zeitschriften, Bildsammlungen, die Google und andere gescannt haben, werden herangezogen. Damit soll erreicht werden, dass die jeweils bisher statistisch wahrscheinlichste Wortfolge zu einer Anfrage erzeugt wird. Dass »verständliche Texte«, »authentische Bilder«, logische Programmfolgen erzeugt werden. Dass die Anwendenden meinen, sie hätten eine künstliche »Intelligenz« geordert.
Nun droht – was man angesichts der ungeheuren Datenmenge, die im Internet kursiert, nicht denken sollte – ein Hunger auf Daten, die es nicht mehr gibt, für die kommenden Versionen der KI. Denn um besser zu werden, benötigen neue KI-Modelle vor allem noch mehr Daten als die Vorversionen. Das Trainingsmaterial vom in Entwicklung befindlichen GPT-5 wird auf bis zu 100 Billionen Tokens geschätzt, nach 13 Billionen, die wohl für Chat GPT-4 nötig waren. Ein Token ist ein einzelnes Wort, ein Wortbestandteil oder ein Zeichen.
Was die Nutzer:innen der Social Media oft nicht wissen – oder wissen wollen –, ist, dass ihre veröffentlichten Chatverläufe, hochgeladenen Fotos und Texte zum Teil ohne Zustimmung schon länger zum Training der KI verwendet wurden. Meta änderte kürzlich die Nutzerbestimmungen und will von EU-Bürgern alle seit 2007 gewonnenen Daten für seine Technologie verwenden: Texte, Filme, Fotos, Kommentare samt Profilen sollen die KI trainieren.
Die Europäische Datenschutzverordnung (DSGVO) würde normalerweise dagegen sprechen, ohne Einverständnis der Nutzer solche Daten weiterzuverarbeiten, zumal der Zweck völlig allgemein bleibt. Meta und Zuckerberg berufen sich auf die Ausnahmeregelung in der DSGVO, die bei »berechtigtem Interesse« eine Nutzung durch die IT-Unternehmen erlauben würde. Ein berechtigtes Interesse wäre die bessere »Versorgung der Bevölkerung« mit KI-Anwendungen. Ein Widerspruch gegen die Nutzung wäre bei Facebook und Co. nur auf kompliziertem Wege auf deren Homepage zu finden und die Folgen sind unklar.
Dazu kommt, dass die Trainingsdaten etwa von Bildern und Filmen von sog. »Mikrojobbern« den Systemen benannt und erklärt werden müssen. Bilder von Künstlern im Internet werden für die Schulung herangezogen, ohne dass dafür Geld an die Urheber gezahlt wird. Die Techkonzerne »klauen« die Daten und machen mit der KI ihr großes Geschäft.

Teile diesen Beitrag:
Kommentar zu diesem Artikel hinterlassen

Spenden

Die SoZ steht online kostenlos zur Verfügung. Dahinter stehen dennoch Arbeit und Kosten. Wir bitten daher vor allem unsere regelmäßigen Leserinnen und Leser um eine Spende auf das Konto: Verein für solidarische Perspektiven, Postbank Köln, IBAN: DE07 3701 0050 0006 0395 04, BIC: PBNKDEFF


Schnupperausgabe

Ich möchte die SoZ mal in der Hand halten und bestelle eine kostenlose Probeausgabe oder ein Probeabo.