Auswege bei rechtswidrigen Datenverarbeitungen durch KI

Die New York Times hat jüngst gegen Microsoft und OpenAI geklagt. Der Grund: Mögliche Urheberrechtsverletzungen durch die Verwendung von Millionen Artikeln der New York Times zum Trainieren von ChatGPT. Diese Klage gibt Anlass darüber nachzudenken, ob die rechtswidrige Verarbeitung von Daten in den Phasen der Konzeption, dem Training oder dem Betrieb von Systemen der Künstlichen Intelligenz, kurz KI, zu einem Neutraining der Modelle zwingt oder ob Alternativlösungen bereitstehen. Denn ein Neutraining der Systeme ist zeit- und kostenintensiv.

Erste Stellungnahmen von Datenschutzbehörden zum KI-Einsatz veröffentlicht

Da nicht nur die Verwendung urheberrechtlich geschützten Materials zu Problemen führen kann, sondern auch die Verarbeitung personenbezogener Daten für das Training von KI, ist das jüngst vom Landesbeauftragten für Datenschutz und Informationsfreiheit Baden-Württemberg (LfDI BW) herausgegebene Diskussionspapier zum Einsatz von KI von Interesse. Weitere Aufsichtsbehörden haben ebenfalls erste Stellungnahmen zum Einsatz von KI veröffentlicht: der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit zum Einsatz LLM-basierter Chatbots (veröffentlich am 13.11.2023) und die Französische Datenschutzbehörde einen Selbstbewertungsleitfaden für KI-Systeme.

Der LfDI BW weist auf zwei Methoden hin, die Entwickler und Betreiber von KI-Modellen einsetzen könnten, um nachträgliche Korrekturen an ihren Systemen zu vermeiden oder diese bei Bedarf durchzuführen: 1. die Methode des „Differential Privacy“ und 2. das „Machine Unlearning“.

Differential Privacy als Goldstandard für sichere KI-Modelle

Ziel der Methode „Differential Privacy“ ist, dass ein einzelnes Trainingsdatum keinen zu großen Einfluss auf das abgeschlossen trainierte Modell hat. Den schützenswerten Daten werden bei diesem Verfahren in komplexen Rechenvorgängen Zufallswerte hinzugefügt. Hierzu kommen Verfahren des Hashings und die Einspielung „mathematischer Störgeräusche“ zur Anwendung. Zusätzlich werden nur kleine Ausschnitte der Datenbanken analysiert. Durch diese Methode soll eine Ableitung personenbezogener Daten aus dem trainierten KI-Modell unmöglich werden. Differential Privacy wird auch aus diesem Grund als der neue Goldstandard für datenschutzfreundliche Technologien gehandelt.

Machine Unlearning als datenschutzfreundlicher Ansatz zur gezielten Löschung von Trainingsdaten

Machine Unlearning setzt bei KI-Modellen am Recht auf Vergessenwerden und der Löschung von Daten an (Art. 17 DSGVO). Grundsätzlich ist das zielgerichtete Löschen einzelner personenbezogener Daten aus dem abgeschlossen trainierten KI-System nur schwer möglich. Denn welche einzelnen Informationen die Modelle im Training aus den jeweiligen Daten erlernt haben, ist nicht oder nur teilweise nachvollziehbar. Einzelne Datensätze aus dem Lernergebnis spurlos zu entfernen, ist damit kaum möglich. Das „Entlernen“ soll ermöglichen, alte und fehlerhafte Daten aus dem System zielgerichtet zu löschen. Die Entwicklung dieses datenschutzfreundlichen Ansatzes steckt aktuell allerdings noch in den Kinderschuhen. Google hatte Mitte letzten Jahres zu einer „Unlearning Challenge“ aufgerufen und KI-Ingenieure gesucht, die diesen Ansatz realisieren können. Perspektivisch könnte dieser Ansatz für Unternehmen, die KI-Modelle in ihre Geschäftsprozesse integrieren, eine erhebliche Erleichterung bei der Umsetzung der Vorgaben der DSGVO bewirken.

 

Zurück zur Übersicht

Dr. Axel Grätz

Dr. Axel Grätz

AssociateRechtsanwalt

Konrad-Adenauer-Ufer 23
50668 Köln
T +49 221 2091 604
M +49 170 929 593 6

E-Mail

LinkedIn