• AI Peanuts
  • Posts
  • GenAI & Urheberrecht: Worum geht es wirklich?

GenAI & Urheberrecht: Worum geht es wirklich?

Erinnerst du dich noch an den Aufschrei, als letzten März die italienische Datenschutzbehörde ChatGPT wegen Urheberrechtsproblemen vorübergehend blockiert hat?

Der Streit zwischen GenAI und europäischen Gesetzgebern dreht sich um eine verzwickte Frage: Verstößt ChatGPT gegen geltendes EU-Recht?
Beide Seiten haben gute Argumente, aber worum geht es wirklich?

Verständnis fürs Gesetz
Die Herausforderung für Gesetzgeber ist riesig: Erstens spuckt ChatGPT ja gar kein urheberrechtlich geschütztes Material aus – sondern wurde nur darauf trainiert. Zweitens geht es nicht nur um ein paar Trainingsdaten – sondern nahezu das gesamte Internet.

Die Urheberrechtsrichtlinie der EU legt allerdings auch Regeln für Text- und Daten-Mining fest. Und das bezieht sich auf jede automatisierte Analysetechnik, die digitale Texte und Daten scannt, um neue Informationen wie Trends und Muster zu generieren. Das trifft schon sehr klar zu.

Laut Richtlinie dürfen GenAI-Tools große Datensätze durchsuchen, vorausgesetzt zwei Bedingungen sind erfüllt:

  1. Die Daten sind öffentlich zugänglich

  2. Der Urheber hat die Extraktion nicht ausdrücklich verboten.

Mittlerweile blockieren mindestens die Hälfte der befragten Nachrichtenverlage sowohl OpenAI als auch das "Common Crawl"-Projekt, das viele LLM-Projekte für Trainingsdaten verwendet haben. Ob das noch irgendetwas für deren juristische Verteidigung bringt? Völlig unklar.

OpenAIs Verteidigung
OpenAI argumentiert, dass ihr Trainingsprozess unter den aktuellen Gesetzen als "faire Nutzung" gilt. Das für uns spannendste Argument ist, das die Verwendung der Trainingsdaten deren Marktwert gar nicht tangiert haben.

Und das macht Sinn: Nur weil ein Modell schreiben kann wie Stephen King, heißt das nicht, dass Leute aufhören, Kings Werke zu lesen.

Was kommt als Nächstes?
Der anstehende AI-Act der EU soll einige dieser Fragen klären:
Die Gesetzgebung schlägt vor, dass Anbieter von Grundmodellen (wie OpenAI), offenlegen müssen, wie sie urheberrechtlich geschützte Trainingsdaten verwenden. Selbst wenn das der Fall sein wird, wird es für Kläger schwer wirklich nachzuweisen, das Schäden entstanden sind. Eine finale Klärung wird es erst geben, wenn ein Urteil gegen oder für OpenAI gefallen ist.