Tech

YouTuber reicht Sammelklage gegen OpenAI wegen Entnahme von Transkripten von YouTubern ein

UnKnew Tuesday, September 17 2024

Ein YouTube-Ersteller plant, eine Sammelklage gegen OpenAI einzureichen, mit der Behauptung, dass das Unternehmen seine generativen KI-Modelle auf Millionen von Transkripten von YouTube-Videos trainiert hat, ohne die Besitzer der Videos darüber zu informieren - oder zu entschädigen.

\n\n

In einer am letzten Freitag beim US-Bezirksgericht für den nördlichen Bezirk von Kalifornien eingereichten Beschwerde behaupten die Anwälte von David Millette, einem in Massachusetts ansässigen YouTube-Benutzer, dass OpenAI heimlich die Videos von Millette und anderen Erstellern transkribiert hat, um die Modelle zu trainieren, die die KI-gesteuerte Chatbot-Plattform des Unternehmens, ChatGPT, und andere generative KI-Tools und Produkte antreiben. Durch die Erfassung dieser Daten hat OpenAI nach Angaben der Beschwerde "erhebliche Gewinne" aus der Arbeit der Ersteller erzielt, während es gegen das Urheberrecht und die Nutzungsbedingungen von YouTube verstößt, die die Verwendung von Videos für Apps außerhalb seines Dienstes verbieten.

\n\n

"Da [OpenAIs] KI-Produkte durch die Verwendung von Trainingsdatensätzen immer ausgefeilter werden, werden sie für potenzielle und aktuelle Benutzer immer wertvoller, die Abonnements erwerben, um auf [OpenAIs] KI-Produkte zuzugreifen", heißt es in der Beschwerde. "Ein Großteil des Materials in den Trainingsdatensätzen von OpenAI stammt jedoch aus Werken, die von OpenAI ohne Zustimmung, ohne Anerkennung und ohne Entschädigung kopiert wurden."

\n\n

Millette, vertreten von der Anwaltskanzlei Bursor and Fisher, strebt eine Juryverhandlung und über 5 Millionen US-Dollar Schadensersatz für alle YouTube-Benutzer an, deren Daten möglicherweise in OpenAIs Training eingeflossen sind.

\n\n

Generative KI-Modelle wie die von OpenAI haben keine echte Intelligenz. Indem sie eine enorme Anzahl von Beispielen (z.B. Filme, Sprachaufnahmen, Aufsätze usw.) erhalten, "lernen" die Modelle, wie wahrscheinlich Daten auftreten, basierend auf Mustern, einschließlich des Kontexts der umgebenden Daten.

\n\n

Die meisten Modelle werden mit Daten trainiert, die von öffentlichen Websites und Datensätzen im Web stammen. Unternehmen argumentieren, dass die Fair Use ihre Bemühungen rechtfertigt, Daten wahllos zu sammeln und für das Training kommerzieller Modelle zu verwenden. Viele Urheberrechtsinhaber sind jedoch anderer Meinung - und sie reichen Klagen ein, um diese Praxis zu stoppen.

\n\n

Videotranskriptionen sind zu einem wichtigen Trainingsdatenbestandteil geworden, da andere Datenquellen sozusagen austrocknen.

\n\n

Mehr als 35 % der Top-1.000-Websites der Welt blockieren mittlerweile den Webcrawler von OpenAI, wie Daten von Originality.AI zeigen. Und rund 25 % der Daten aus "hochwertigen" Quellen wurden aus den großen Datensätzen, die zur Schulung von KI-Modellen verwendet werden, eingeschränkt, wie eine Studie der Data Provenance Initiative des MIT ergab. Sollte der aktuelle Trend des Zugriffsschutzes weitergehen, prognostiziert die Forschungsgruppe Epoch AI, dass Entwickler zwischen 2026 und 2032 keine Daten mehr haben werden, um generative KI-Modelle zu trainieren.

\n\n

Im April berichtete die New York Times, dass OpenAI sein erstes Spracherkennungsmodell, Whisper, erstellt hat, um Audio aus Videos zu transkribieren, um zusätzliche Trainingsdaten zu sammeln. Ein OpenAI-Team, dem auch der Präsident des Unternehmens, Greg Brockman, angehörte, transkribierte mehr als eine Million Stunden Video von YouTube mit Whisper, wie die Times berichtet, und verwendete die Transkripte, um das Textgenerierungs- und -analysierungsmodell GPT-4 von OpenAI zu trainieren.

\n\n

Einige Mitarbeiter von OpenAI diskutierten laut der Times, wie ein solcher Schritt gegen die Regeln von YouTube verstoßen könnte.

\n\n

Im Juli berichtete Proof News, dass Unternehmen wie Anthropic, Apple, Salesforce und Nvidia einen Datensatz namens The Pile nutzten, der Untertitel von Hunderttausenden von YouTube-Videos enthält, um generative KI-Modelle zu trainieren. Viele YouTuber, deren Untertitel in The Pile aufgenommen wurden, waren sich dessen nicht bewusst und haben dem nicht zugestimmt; Apple veröffentlichte später eine Erklärung, dass es nicht beabsichtigt war, diese Modelle zur Stromversorgung von KI-Funktionen in seinen Produkten zu verwenden.

\n\n

Auch Google, das Mutterunternehmen von YouTube, hat versucht, Transkripte zu verwenden, um seine Modelle zu trainieren.

\n\n

Im vergangenen Jahr erweiterte Google seine Nutzungsbedingungen (ToS) teilweise, um dem Unternehmen zu erlauben, mehr Benutzerdaten für das Training von generativen KI-Modellen zu nutzen. Unter den alten ToS war nicht klar, ob Google YouTube-Daten verwenden konnte, um Produkte über die Videoplattform hinaus zu entwickeln. Das ist unter den neuen Bedingungen nicht so, die die Zügel erheblich lockern.

\n\n

Wir haben OpenAI und Google um einen Kommentar zur Sammelklage gebeten und werden diesen Artikel aktualisieren, wenn sie antworten.

\n\n

Der Monat hat für OpenAI einen holprigen Start gehabt.

\n\n

Tesla- und X-CEO Elon Musk hat am Montag eine neue Klage gegen OpenAI und CEO Sam Altman eingereicht und dem Unternehmen vorgeworfen, seine ursprüngliche gemeinnützige Mission aufgegeben zu haben, indem es einige seiner hochentwickeltsten Technologien für kommerzielle Kunden reserviert. Musk erhob ähnliche Vorwürfe bereits in einer Klage gegen OpenAI im Februar, aber die neue Klage behauptet auch, dass OpenAI sich in organisiertes Verbrechen verwickelt hat.

UnKnew