OpenAI vs DSGVO: Wie der Datenschutz zum Verhängnis werden könnte

Veröffentlungsdatum:

8/5/2023

Zuletzt aktualisiert:

9/5/2023

Autor:

Kategorie:

Tags:

Künstliche Intelligenz

ChatGPT könnten gegen bestehende Datenschutzrichtlinien verstoßen, und es scheint keine einfache Lösung für dieses Problem zu geben.

‍

Nach einer Sperre in Italien und Untersuchungen in anderen EU-Ländern hatte OpenAI etwas mehr als eine Woche Zeit, um den europäischen Datenschutzvorgaben gerecht zu werden. Andernfalls drohten hohe Bußgelder, Datenlöschungen oder sogar Verbote in weiteren EU-Mitgliedstaaten.

‍

Fachleute sind der Meinung, dass es für OpenAI äußerst schwierig sein könnte, die Anforderungen zu erfüllen. Dies liegt daran, wie die Daten zur Schulung der umfangreichen Sprachmodelle (Large Language Models, LLMs) erfasst wurden, so die Experten in Gesprächen mit dem MIT Technology Review. Die Daten stammen aus dem Internet.

‍

In der aktuellen KI-Forschung gilt das Paradigma des Datenhungers: Je mehr Informationen während der Trainingsphase im Modell enthalten sind, desto besser. OpenAIs GPT-2-Modell verfügte über einen Datensatz von 40 Gigabyte Text. GPT-3, auf dem ChatGPT im Wesentlichen basiert, wurde mit 570 GB Daten versorgt. OpenAI hat bisher keine Angaben darüber gemacht, wie umfangreich der Trainingsdatensatz für das neueste Modell, GPT-4, ist – es dürfte aber noch größer sein.

‍

Der unersättliche Datenappetit könnte sich jedoch als datenschutzrechtlicher Rückschlag erweisen. Die zuständigen Behörden zeigen zunehmendes Interesse daran, wie OpenAI die Daten erhebt und verarbeitet, die von Diensten wie ChatGPT verwendet werden. Datenschutzexperten sind außerdem der Ansicht, dass das Unternehmen dabei persönliche Daten wie Namen oder E-Mail-Adressen von Personen erfasst und ohne deren Einwilligung nutzt. Hinzu kommen die Informationen, die aktuell während der Nutzung generiert werden und von denen angenommen wird, dass sie OpenAI für weitere Trainingszwecke einsetzen könnte.

Italien setzt OpenAI Ultimatum

Die Datenschutzbehörde Italiens hat den ersten Schritt unternommen und ChatGPT vorsichtshalber blockiert. Datenschutzaufsichtsbehörden aus Frankreich, Deutschland, Irland und Kanada untersuchen ebenfalls, wie OpenAI Informationen erhebt und nutzt. Der Europäische Datenschutzausschuss (EDSA), ein Zusammenschluss von Datenschutzbehörden, plant zudem die Einrichtung einer EU-weiten Task Force, um die Untersuchungen zu koordinieren und mögliche Strafmaßnahmen gegen OpenAI zu verhängen.

‍

Italien hat OpenAI als Betreiber von ChatGPT bis zum 30. April Zeit gegeben, um die lokalen Gesetze einzuhalten. Dies würde unter anderem bedeuten, dass OpenAI die Zustimmung der betroffenen Personen zum Sammeln ihrer Daten einholen oder nachweisen müsste, dass ein sogenanntes "berechtigtes Interesse" gemäß der Datenschutz-Grundverordnung (DSGVO) vorliegt. Dieser Rechtsbegriff wurde bereits von Websites und sozialen Medien zur Anzeige personalisierter Werbung verwendet, allerdings nicht immer erfolgreich vor Gericht.

‍

OpenAI muss den Benutzern außerdem detaillierter erläutern, wie ChatGPT ihre Daten verarbeitet, und ihnen sogar die Möglichkeit bieten, fehlerhafte Informationen, die der Chatbot über sie preisgibt, zu berichtigen. Daten müssen löschbar sein, und das System muss es erlauben, auf die Informationen einer Person vollständig zu verzichten, wenn diese das wünscht.

‍

Falls OpenAI die italienische Datenschutzbehörde nicht von der Rechtmäßigkeit seiner Datenverarbeitungspraktiken überzeugen kann, könnten die Dienstleistungen des Unternehmens in einzelnen EU-Ländern oder sogar in der gesamten Europäischen Union untersagt werden. OpenAI könnte zudem mit hohen Geldbußen belegt werden und gezwungen sein, vollständige Modelle oder zumindest die damit verbundenen Trainingsdaten zu entfernen. Dies geht aus einer Stellungnahme von Alexis Leautier, KI-Experte bei der französischen Datenschutzbehörde CNIL, hervor.

Transparenz ist gefragt

OpenAIs Vergehen könnten so gravierend sein, dass der Fall vor dem Europäischen Gerichtshof, dem höchsten Gericht der EU, landen könnte. Dies ist die Einschätzung von Lilian Edwards, Professorin für Internetrecht an der Newcastle University. Die italienische Datenschutzbehörde könnte trotz der gesetzten Frist lange auf Antworten warten müssen.

‍

Für OpenAI steht dabei viel auf dem Spiel. Die DSGVO gilt derzeit als eines der striktesten Datenschutzgesetze der Welt, wenn nicht sogar als das strikteste. Weltweit orientieren sich Gesetzgeber an dieser Regelung, von Brasilien bis Kalifornien. Regulierungsbehörden beobachten genau, welche Auswirkungen der Fall auf KI-Unternehmen haben wird.

‍

OpenAI muss jedoch nicht nur Transparenz bezüglich seiner Datenpraktiken schaffen. Zunächst müssen sie nachweisen, dass sie gemäß den DSGVO-Vorschriften gearbeitet haben. Hierzu gibt es zwei rechtliche Möglichkeiten: Entweder wurde die Einwilligung der Nutzer zur Datenerhebung eingeholt, oder es liegt das erwähnte "berechtigte Interesse" vor. Eine Zustimmung zum sogenannten Scraping großer Teile des Internets wurde von OpenAI nicht eingeholt, da Millionen von EU-Bürgern eine Einverständniserklärung hätten abgeben müssen.

‍

Es bleibt das "berechtigte Interesse". Hierzu muss das Unternehmen den Aufsichtsbehörden glaubhaft vermitteln, wie bedeutsam der ChatGPT-Dienst tatsächlich ist, um eine Datensammlung ohne Einwilligung rechtfertigen zu können, so Rechtsexpertin Edwards.

Aus Sicht von OpenAI

OpenAI teilte gegenüber MIT Technology Review mit, dass sie davon überzeugt sind, die EU-Datenschutzgesetze einzuhalten. In einem Blogbeitrag wird ebenfalls angeführt, dass das Unternehmen daran arbeitet, personenbezogene Daten auf Anfrage aus den Trainingsdaten zu entfernen – allerdings nur, "wenn dies machbar ist".

‍

Der KI-Vorreiter gibt an, seine Modelle mit öffentlich zugänglichen und lizenzierten Inhalten sowie Informationen von menschlichen Mitarbeitern zu trainieren. Letztere waren beispielsweise an der Filterung problematischer Inhalte beteiligt und bewerteten Antworten (Reinforcement Learning from Human Feedback, RLHF). Dennoch dürfte dies für die Einhaltung der DSGVO nicht ausreichend sein.

‍

Juristin Edwards erklärt, dass in den USA die Auffassung vorherrscht, öffentlich zugängliche Informationen seien nicht mehr privat – ein Standpunkt, der im europäischen Recht nicht verankert ist. Die Datenschutz-Grundverordnung gewährt den Menschen als "Datensubjekte" besondere Rechte, einschließlich des Rechts auf Information über die Erhebung und Verwendung ihrer Daten. Sie können auch fordern, dass Daten aus Systemen entfernt werden, selbst wenn diese ursprünglich öffentlich waren.

‍

Ein weiteres Problem für OpenAI besteht darin, dass die italienische Behörde kritisiert, das Unternehmen sei nicht transparent genug hinsichtlich der Datensammlung während der Nachtrainingsphase, zum Beispiel in Chatprotokollen der Nutzerinteraktionen mit ChatGPT.

Sorge um Chat-Daten

Französischer Datenschützer Leautier äußert Bedenken hinsichtlich der Verwendung von Daten, die Nutzer in Chats preisgeben. Menschen neigen dazu, dem Chatbot persönliche und sensible Informationen anzuvertrauen, etwa über ihre psychische Verfassung, Gesundheit oder persönlichen Ansichten. Leautier zufolge ist dies problematisch, da die Gefahr besteht, dass solche heiklen Daten an Dritte weitergegeben werden. Laut europäischem Recht müssen Nutzer die Möglichkeit haben, ihre Chat-Verläufe löschen zu lassen. Zwar gibt es diese Funktion, jedoch ist unklar, wie lange interne Speicherfristen gelten.

‍

Dies stellt für OpenAI eine enorme Herausforderung dar. Margaret Mitchell, KI-Forscherin und Ethik-Leiterin beim KI-Start-up Hugging Face, erklärt, es werde nahezu unmöglich sein, die Daten einzelner Personen zu identifizieren und aus den Modellen zu entfernen.

‍

OpenAI hätte viele der aktuellen Konflikte vermeiden können, hätte es von Beginn an eine solide Datenerfassung gegeben. Stattdessen sei es in der KI-Branche gängig, so Mitchell, Trainingsdatensätze für große Sprachmodelle zu erstellen, indem man wahllos das Internet durchsucht. Anschließend beauftragt man externe Unternehmen – hauptsächlich in Niedriglohnländern –, die manuell doppelte oder irrelevante Informationen, Hass, Gewalt oder Kinderpornografie herausfiltern und sogar Tippfehler korrigieren müssen.

‍

Die verwendeten Methoden und die enorme Größe der Trainingsdatensätze führen dazu, dass KI-Unternehmen in der Regel nur ein sehr eingeschränktes Verständnis für den Aufbau ihrer Modelle haben. Dies macht es nahezu unmöglich, sie datenschutzkonform zu trainieren.

Schwierige Suche in riesigen Trainingsdaten

Die meisten KI-Unternehmen halten keine detaillierten Aufzeichnungen darüber, wie sie Trainingsdaten erfassen oder annotieren. Laut Nithya Sambasivan, ehemalige KI-Forscherin bei Google und heutige Expertin für Trainingsdaten, wissen sie oft nicht einmal, was genau in ihren Datensätzen enthalten ist.

‍

Das Auffinden von Daten italienischer Nutzer in einem riesigen ChatGPT-Trainingsdatensatz gleicht der Suche nach der berühmten Nadel im Heuhaufen. Selbst wenn OpenAI es schaffen würde, die Daten dieser Nutzergruppe zu entfernen, bleibt ungewiss, ob dies dauerhaft wäre. Untersuchungen zeigen, dass Trainingsdatensätze oft noch lange im Internet auffindbar sind, selbst nachdem sie angeblich gelöscht wurden, da Kopien des Originals online bestehen bleiben.

‍

"Der aktuelle Stand der Technik bei der Erfassung von Trainingsdaten ist sehr, sehr unzureichend", erklärt Mitchell. Während enorm viel Aufwand in die Entwicklung fortschrittlicher KI-Modelle investiert wurde, wurden die Methoden der Datenerfassung vernachlässigt, wobei viele dieser Methoden zehn Jahre oder älter sind.

‍

Mitchell bemerkt, dass in der KI-Community der Fokus auf der Technik der Modelle liegt, während andere Aspekte vernachlässigt werden. "Kulturell gesehen, wird im Bereich des maschinellen Lernens die Arbeit mit und an Daten oft als weniger bedeutsame Aufgabe betrachtet, während die Arbeit an den Modellen als das Wesentliche angesehen wird." Sambasivan stimmt dem zu und fügt hinzu, dass es dem gesamten Arbeitsbereich an der nötigen Legitimität mangelt.

Freyberg Consulting

OpenAI vs DSGVO: Wie der Datenschutz zum Verhängnis werden könnte

Italien setzt OpenAI Ultimatum

Transparenz ist gefragt

Aus Sicht von OpenAI

Sorge um Chat-Daten

Schwierige Suche in riesigen Trainingsdaten

Ich manage deinen Datenschutz

Aktuelle Beiträge zum Thema Datenschutz

Integration von AV-Verträgen in die AGB - So schützen Sie Ihr Unternehmen!

Neue DSGVO? - Pläne der EU-Kommission