Der Datenhunger der Künstlichen Intelligenz

Künstliche Intelligenz (KI) muss zuerst trainiert werden, um den Anwendern Vorteile bringen zu können. Basis eines KI-Trainings sind geeignete Daten, aus denen die KI-Modelle lernen können. Viele KI-Projekte machen aber den Fehler, auf möglichst viele Daten zuzugreifen.

Darum ist KI ein wichtiges Thema für den Datenschutz

KI wird zu den wichtigsten technologischen Entwicklungen der nächsten Jahre oder sogar Jahrzehnte gezählt. Sowohl im beruflichen wie im privaten Bereich hat KI bereits Einzug gehalten, wie zum Beispiel die hohe Verbreitung der KI-Anwendung ChatGPT zeigt. Es gehört zu den Aufgaben des Datenschutzes, sich auch mit solch neuen Technologien zu befassen, um mögliche Auswirkungen auf personenbezogene Daten frühzeitig erkennen zu können.
Die Landesdatenschutzbeauftragte von Nordrhein-Westfalen (NRW) beispielsweise erklärte, der Knackpunkt sei vor allem der Datenhunger von KI. Datenschutz setze auf das Prinzip der Datensparsamkeit oder Datenminimierung, während KI Datenhunger habe. Grundsätzlich dürften personenbezogene Daten aber nur dann für KI genutzt werden, wenn es gesetzlich erlaubt – also legitim – ist oder die betroffene Person ihre Einwilligung erteilt hat.

Wissen Sie, warum Künstliche Intelligenz (KI) und KI-Training ein Thema für den Datenschutz sind?

Die Lösungen finden Sie am Ende des Beitrags.

Frage 1: Wenn man mit einem KI-Projekt startet, ist die KI-Anwendung bereits fertig und einsatzbereit. Stimmt das?

Nein, das Besondere an KI-Anwendungen ist, dass sie lernfähig sind. Um zu dem genauen Anwendungszweck zu passen, wird die KI zuerst entsprechend trainiert.
Ja, wie jede professionelle Software sind KI-Anwendungen vor der Nutzung fertig entwickelt und bereit für den Einsatz.

Frage 2: KI lernt von uns Menschen. Deshalb sind personenbezogene Daten für das KI-Training unersetzlich. Stimmt das?

Ja, ohne Daten von uns Menschen kann eine KI keine Intelligenz entwickeln, wie wir sie von ihr erhoffen.
Nein, KI lernt zwar von uns Menschen, sie benötigt dafür aber nicht zwingend Daten über einzelne Personen. Vielmehr soll eine KI Muster erlernen, wie wir Menschen Entscheidungen fällen.

Beispiel: Der Meta-Konzern will seine KI trainieren

Der Meta-Konzern, der unter anderem Facebook anbietet, informierte im Mai 2024 Anwenderinnen und Anwender über die geplante Nutzung personenbezogener Daten aus Facebook, Instagram und Threads für die Entwicklung und Verbesserung seiner KI-Dienste. Meta hatte dabei auch auf die Möglichkeit hingewiesen, hiergegen Widerspruch einzulegen. Andernfalls sollten dann Beiträge, Fotos und Bildunterschriften auf Facebook und Instagram zum Training der KI-Dienste von Meta verwendet werden.
Meta hatte sich auf das sogenannte „berechtigte Interesse“ daran berufen, seine KI-Dienste weiterzuentwickeln. Da die EU-Datenschutzbehörden bezweifeln, dass dieses Vorgehen datenschutzkonform ist, ist Meta einer Aufforderung durch die federführende irische Datenschutzaufsicht in der EU nachgekommen und hat bis auf Weiteres das Training seiner KI-Modelle mit Daten aus der EU gestoppt, wie die Landesdatenschutzbeauftragte von NRW berichtete.

Das KI-Training braucht Grenzen

Es zeigt sich: Das Training einer KI-Anwendung kann personenbezogene Daten betreffen und benötigt dafür dann eine entsprechende Rechtsgrundlage. Der Datenschutz verlangt, dass personenbezogene Daten sparsam und zweckgebunden eingesetzt werden. Es muss zudem transparent sein, was mit den Daten geschehen soll und welche Auswirkungen die Verarbeitung der personenbezogenen Daten haben kann.
Bevor man also in einem KI-Projekt damit beginnt, die KI zu Trainingszwecken mit Daten zu füttern, müssen die Folgen für den Datenschutz geklärt sein. Insbesondere muss geprüft sein, ob man nicht auf anonyme, pseudonyme oder synthetische Daten ausweichen kann, ob also ein Personenbezug der Daten wirklich für den Zweck der KI notwendig ist. Das wird in aller Regel nicht der Fall sein.
Wenn aber doch personenbezogene Daten für das KI-Training benötigt werden sollten, muss geklärt werden, ob es eine Rechtsgrundlage für die Verwendung personenbezogener Trainingsdaten gibt. Bei besonderen personenbezogenen Daten wie Gesundheitsdaten ist in aller Regel eine Einwilligung der betroffenen Personen notwendig.

Das Training einer KI ist also ein Ernstfall für den Datenschutz!

Und hier die Lösungen für die Quizfragen:

Lösung Frage 1: Die Antwort 1 ist richtig. Wenn eine KI-Anwendung von einem Anbieter bezogen wird, ist diese zwar als Software oder Service fertiggestellt, oftmals ist die KI auch vortrainiert, man beginnt also nicht bei Null. Doch für die individuelle Nutzung der KI-Anwendung kann die KI in dem Projekt weiterlernen und sich damit immer mehr auf den speziellen Einsatzzweck anpassen. Das KI-Training kann also auch noch im Anwenderunternehmen stattfinden.
Lösung Frage 2: Die Antwort 2. ist richtig. Auch aus anonymisierten Daten oder künstlich erzeugten, synthetischen Daten kann eine KI die Muster erkennen, die sie für das Lernen benötigt. Ein Beispiel: Wenn Ärztinnen und Ärzte Röntgenbildern bestimmte Diagnosen zuordnen, dann kann eine KI neue Röntgenbilder mit bereits klassifizierten Bildern vergleichen und bei entsprechender Ähnlichkeit die Wahrscheinlichkeit für eine bestimmte Diagnose berechnen. Dazu muss die KI aber nicht wissen, von welchen Personen die Röntgenaufnahmen sind.