IT-Recht und Datenschutz07.11.2024 Newsletter

Künstliche Intelligenz und Urheberrecht: Das Training der KI

KI-Systeme werden häufig mit urheberrechtlich geschütztem Material, wie Bildern oder Texten, trainiert. Das Training umfasst (i) das Sammeln von Daten und (ii) deren Einspeisung in das neuronale Netzwerk, um die Parameter zu justieren. (iii) Zudem setzen Nutzer das Training mit spezifischen Inhalten fort, um eine bereits vortrainierte KI an ihre eigenen Bedürfnisse anzupassen.

Das Training mit Werken Dritter ohne entsprechende Erlaubnis könnte eine Verletzung des ausschließlichen Rechts des Urhebers darstellen, sein Werk zu vervielfältigen (§ 16 UrhG). Dabei gibt es zwei mögliche Anknüpfungspunkte für eine Vervielfältigung:

(a) die Sammlung der Trainingsdaten und

(b) die Einspeisung der Informationen aus diesen Daten ins neuronale Netzwerk.

1. Keine Vervielfältigung durch Speicherung der Daten im neuronalen Netzwerk

Nach derzeit überwiegender Auffassung berührt die Einspeisung der Trainingsdaten in das neuronale Netzwerk keine urheberrechtlichen Vervielfältigungsrechte, denn das Trainingsmaterial wird nicht im neuronalen Netzwerk gespeichert. Stattdessen werden nur Wahrscheinlichkeiten im Netz berechnet und abgespeichert. Wahrscheinlichkeiten sind aber weder urheberrechtlich geschützte Werke (noch personenbezogene Daten).

Teilweise wird gegen diese Sichtweise argumentiert, dass das Vervielfältigungsrecht technologieneutral ausgestaltet sei und das Training eine Vervielfältigungshandlung darstelle, weil im Output reproduzierte Werke erscheinen können.

Entgegen dieser Ansicht sind der Trainingsprozess und der Output einer KI aber streng voneinander zu trennen. Der Output ist das Ergebnis einer Berechnung der größten Wahrscheinlichkeit für die Kombination verschiedener Fragmente im System, nicht das Ergebnis einer Abfrage aus einer Datensammlung ist. Gerade im Urheberrecht wird dies anhand des Sinns und Zwecks von KI deutlich: Es soll Neues geschaffen und nicht Gespeichertes abgefragt werden.

2. Vervielfältigungen bei der Datensammlung

Die Sammlung und Speicherung der geschützten Werke ohne Zustimmung der Rechteinhaber berührt allerdings die Vervielfältigungsrechte nach § 16 UrhG. Der KI-Anbieter benötigt also die Nutzungsrechte vom Rechteinhaber oder muss sich auf eine Schrankenregelung, also eine gesetzliche Gestattung der Nutzung ohne Zustimmung des Rechtsinhabers, berufen können. Die Einholung der Zustimmung eines jeden Urhebers eines gescrapten KI-Trainingsdatensatzes ist aber praxisfern. In den Fokus rücken daher die urheberrechtlichen Schrankenregelungen

(a) Urheberrechtliche Schrankenregelungen

Prominent ist die auf das kommerzielle KI-Training anwendbare Text- und Data-Mining-Schranke des § 44b UrhG. Diese Schrankenregelung erlaubt die vorübergehende Vervielfältigung zur automatisierten Analyse von digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen. Dies ist ausnahmsweise insbesondere aber dann nicht der Fall, wenn sich der Rechtsinhaber die Nutzung seines Werks zum Text- und Data Mining vorbehalten hat (Opt Out). Einen solchen Nutzungsvorbehalt muss der Rechtsinhaber aber in maschinenlesbarer Form erklären, damit er wirksam ist (vgl. § 44b Abs. 3 UrhG). § 60d UrhG ist das Äquivalent zu § 44b UrhG für die wissenschaftliche Forschung.

(b) Prozess vor dem LG Hamburg

Das Landgericht Hamburg konturierte am 27. September 2024 im Verfahren unter dem Az. 310 O 227/23 die Anwendbarkeit und Voraussetzungen des § 44b UrhG im Kontext des KI-Trainings.

Beklagter war der gemeinnützige Verein LAION e.V., der sich zum Ziel gesetzt hat, Forschung im Bereich von KI zu fördern. LAION stellte unter der Bezeichnung LAION 5B einen Datensatz mit fast sechs Milliarden Bild-Text-Paaren zum KI-Training bereit. Darin ist ein Bild enthalten, das von dem Fotografen Robert Kneschke stammt. Robert Kneschke hatte sein Bild zuvor auf der Website Bigstock hochgeladen. Die Nutzungsbedingungen von Bigstock enthalten die Regelung, dass die Bilder nicht für „automated programms“ genutzt werden dürfen.

Zentrale Fragen des Prozesses vor dem LG Hamburg waren (i) ob § 44b UrhG überhaupt für KI-Trainingsdatensätze anwendbar ist und (ii) welche Anforderungen an die Maschinenlesbarkeit eines Nutzungsvorbehalts zu stellen sind.

Das Gericht stellte fest, dass die gegenständliche Vervielfältigung grundsätzlich unter die Schrankenregelung des § 44b UrhG fallen könne, aber im hiesigen Fall nicht vorübergehend oder begleitend war, wie es § 44a UrhG erfordert. Zusätzlich entschied das Gericht, dass der Disclaimer aber maschinenlesbar sei, weil er „maschinenverständlich“ war und von einer Software automatisch verarbeitet werden konnte. Maschinenverständlich sind demnach auch in natürlicher Sprache verfasste Nutzungsvorbehalte. § 44b UrhG war dennoch nicht anwendbar und die Vervielfältigung des Fotos durch den Beklagten von dieser Regelung nicht gedeckt.

Allerdings kam das Gericht zu dem Ergebnis, dass die Vervielfältigungshandlung des Beklagten von der Schrankenregelung in § 60d UrhG umfasst sei, weil die Aktivitäten des Beklagten als nicht-kommerzielle wissenschaftliche Forschung angesehen wurden und der Datensatz kostenlos öffentlich zugänglich gemacht wurde.

3. Praxishinweise

Unternehmen sollten ihr KI-Training prüfen:

Stellen Sie interne Richtlinien zur Datennutzung und Urheberrechtskonformität beim Training ihres KI-Systems auf. Berücksichtigen Sie dabei die jüngsten rechtlichen Entwicklungen.
Verträge über den Bezug von KI-Trainingsdatensätzen sollten detaillierte Regelungen zu den Nutzungsrechten enthalten.
Protokollieren Sie die Datennutzung zum Training ihres KI-Systems und entwerfen Sie ein Löschkonzept.

Zurück zur Übersicht