February 2, 2023

Money News PH

The Premier Blog Where Money Talks

Die Klage gegen Microsoft, GitHub und OpenAI, die die Regeln des KI-Urheberrechts ändern könnten

Microsoft, seine Tochtergesellschaft GitHub und sein Geschäftspartner OpenAI wurden in einer geplanten Sammelklage ins Visier genommen, in der behauptet wird, dass die Entwicklung des KI-gestützten Codierungsassistenten GitHub Copilot durch die Unternehmen auf „Softwarepiraterie in beispiellosem Ausmaß“ beruht. Der Fall befindet sich noch in den Anfängen, könnte aber enorme Auswirkungen auf die breitere Welt der KI haben, in der Unternehmen ein Vermögen verdienen, indem sie Software mit urheberrechtlich geschützten Daten trainieren.

Copilot, das im Juni 2021 von GitHub im Besitz von Microsoft vorgestellt wurde, ist auf öffentliche Repositories von Code geschult, der aus dem Internet geschabt wurde, von denen viele mit Lizenzen veröffentlicht werden, die erfordern, dass jeder, der den Code wiederverwendet, seinen Erstellern gutschreibt. Es wurde festgestellt, dass Copilot lange Abschnitte des lizenzierten Codes ohne Angabe von Quellen wieder hervorbringt – was zu dieser Klage führte, in der die Unternehmen beschuldigt werden, das Urheberrecht in großem Umfang zu verletzen.

„Dies ist der erste Sammelklagefall in den USA, der das Training und die Ausgabe von KI-Systemen in Frage stellt. Es wird nicht das letzte sein.“

„Wir stellen die Rechtmäßigkeit von GitHub Copilot in Frage“, sagte der Programmierer und Anwalt Matthew Butterick, der die Klage mit Hilfe der in San Francisco ansässigen Anwaltskanzlei Joseph Saveri eingereicht hatte, in einer Presseerklärung. „Dies ist der erste Schritt auf einer langen Reise. Soweit wir wissen, ist dies der erste Sammelklagefall in den USA, der das Training und die Ausgabe von KI-Systemen in Frage stellt. Es wird nicht das letzte sein. KI-Systeme sind nicht vom Gesetz ausgenommen. Diejenigen, die diese Systeme erstellen und betreiben, müssen rechenschaftspflichtig bleiben.“

Die Klage, die am vergangenen Freitag eingereicht wurde, befindet sich noch im Anfangsstadium. Insbesondere hat das Gericht die vorgeschlagene Klasse von angeblich geschädigten Programmierern noch nicht bestätigt. Aber im Gespräch mit The Verge sagten Butterick und die Anwälte Travis Manfredi und Cadio Zirpoli von der Anwaltskanzlei Joseph Saveri, dass sie erwarteten, dass der Fall einen enormen Einfluss auf die breitere Welt der generativen KI haben würde.

Microsoft und OpenAI sind bei weitem nicht die Einzigen, die urheberrechtlich geschütztes Material aus dem Internet entfernen, um KI-Systeme für Profit zu trainieren. Viele Text-zu-Bild-KI, wie das Open-Source-Programm Stable Diffusion, wurden auf genau die gleiche Weise erstellt. Die Firmen hinter diesen Programmen bestehen darauf, dass ihre Verwendung dieser Daten in den USA durch die Fair-Use-Doktrin abgedeckt ist. Rechtsexperten sagen jedoch, dass dies alles andere als ein festgelegtes Gesetz ist und dass Rechtsstreitigkeiten wie Buttericks Sammelklage den schwach definierten Status quo auf den Kopf stellen könnten.

Um mehr über die Beweggründe und Argumente hinter der Klage zu erfahren, sprachen wir mit Butterick (MB), Manfredi (TM) und Zirpolil (CZ), die erklärten, warum sie denken, dass wir uns in der Napster-Ära der KI befinden, und warum wir es zulassen Die Verwendung von Code anderer ohne Namensnennung durch Microsoft könnte die Open-Source-Bewegung zum Erliegen bringen.

Als Antwort auf eine Bitte um Stellungnahme sagte GitHub: „Wir haben uns von Anfang an zu verantwortungsbewusster Innovation mit Copilot verpflichtet und werden das Produkt weiterentwickeln, um Entwicklern auf der ganzen Welt den besten Service zu bieten.“ OpenAI und Microsoft hatten zum Zeitpunkt der Veröffentlichung auf ähnliche Anfragen noch nicht geantwortet.

Dieses Interview wurde aus Gründen der Klarheit und Kürze bearbeitet

Zuerst möchte ich ein wenig über die Reaktion der KI-Community sprechen, von Leuten, die sich für diese Technologie einsetzen. Ich habe einen Kommentar gefunden, der meiner Meinung nach repräsentativ für eine Reaktion auf diesen Fall ist, der besagt: „Buttericks Ziel hier ist es, die transformative ML-Nutzung von Daten wie Quellcode oder Bildern für immer zu beenden.“

Was denkst du darüber, Matthias? Ist das Ihr Ziel? Wenn nicht, was ist?

„KI-Systeme sind keine magischen Black Boxes, die vom Gesetz ausgenommen sind.“

Matthew Butterick: Ich denke, es ist wirklich einfach. KI-Systeme sind keine magischen Black Boxes, die vom Gesetz ausgenommen sind, und der einzige Weg, wie wir eine verantwortungsbewusste KI haben werden, ist, wenn es für alle fair und ethisch vertretbar ist. Daher müssen die Eigentümer dieser Systeme zur Rechenschaft gezogen werden. Das ist kein Prinzip, das wir aus dem Vollen schöpfen und einfach auf die KI anwenden. Es ist das gleiche Prinzip, das wir auf alle Arten von Produkten anwenden, ob es sich um Lebensmittel, Arzneimittel oder Transportmittel handelt.

Ich habe manchmal das Gefühl, dass die Gegenreaktion, die Sie von der KI-Community bekommen – und Sie haben es mit wunderbaren Forschern, wunderbaren Denkern zu tun – sie nicht daran gewöhnt sind, in diesem Bereich der Regulierung und Sicherheit zu arbeiten. Es ist immer eine Herausforderung in der Technologie, weil die Regulierung der Innovation folgt. Aber in der Zwischenzeit füllen solche Fälle diese Lücke. Das ist ein Teil dessen, worum es bei einer Sammelklage geht: Diese Ideen zu testen und Klarheit zu schaffen.

Denken Sie, wenn Sie mit Ihrer Klage erfolgreich sind, wird dies eine destruktive Wirkung auf die Innovation in diesem Bereich haben, auf die Erstellung generativer KI-Modelle?

Wir befinden uns in der Napster-Ära der generativen KI, sagt Butterick, in der Piraterie Innovationen vorantreibt

MB: Ich hoffe, es ist das Gegenteil. Ich denke, in der Technologie sehen wir immer wieder, dass Produkte herauskommen, die die Grenzen des Gesetzes umgehen, aber dann kommt jemand vorbei und findet einen besseren Weg, dies zu tun. In den frühen 2000er Jahren gab es also Napster, das jeder liebte, aber völlig illegal war. Und heute haben wir Dinge wie Spotify und iTunes. Und wie sind diese Systeme entstanden? Von Unternehmen, die Lizenzverträge abschließen und Inhalte rechtmäßig einbringen. Alle Beteiligten kamen an einen Tisch und sorgten dafür, dass es funktioniert, und die Vorstellung, dass etwas Ähnliches für KI nicht passieren kann, ist für mich ein wenig katastrophal. Wir haben kürzlich eine Ankündigung gesehen, dass Shutterstock einen Contributors’ Fund für Personen einrichtet, deren Bilder in Schulungen verwendet werden [generative AI], und vielleicht wird das ein Modell dafür, wie andere Schulungen durchgeführt werden. Ich persönlich bevorzuge Spotify und iTunes und hoffe, dass die nächste Generation dieser KI-Tools besser und fairer für alle ist und alle glücklicher und produktiver macht.

Ihren Antworten entnehme ich, dass Sie einen Vergleich von Microsoft und OpenAI nicht akzeptieren würden?

MB: [Laughs] Es ist erst der erste Tag des Prozesses…

Ein Abschnitt der Klage, den ich für besonders interessant hielt, betraf die sehr enge, aber unklar definierte Geschäftsbeziehung zwischen Microsoft und OpenAI. Sie weisen darauf hin, dass OpenAI 2016 sagte, dass es seine groß angelegten Experimente auf Microsofts Cloud durchführen würde, dass Microsoft exklusive Lizenzen für bestimmte OpenAI-Produkte hat und dass Microsoft eine Milliarde Dollar in OpenAI investiert hat, was es sowohl zum größten Investor als auch zum größten Dienstleister von OpenAI macht . Welche Bedeutung hat diese Beziehung und warum hielten Sie es für notwendig, sie hervorzuheben?

Travis Manfredi: Nun, ich würde sagen, dass Microsoft versucht, OpenAI als Schutzschild zu verwenden, um Haftung zu vermeiden. Sie versuchen, die Forschung durch diese gemeinnützige Organisation zu filtern, um sie fair zu verwenden, obwohl dies wahrscheinlich nicht der Fall ist. Wir wollen also zeigen, dass das, womit OpenAI angefangen hat, es nicht mehr ist. Es ist ein gewinnorientiertes Geschäft. Seine Aufgabe ist es, Geld für seine Investoren zu verdienen. Es kann von einer gemeinnützigen Organisation kontrolliert werden [OpenAI Inc.], aber der Vorstand dieser gemeinnützigen Organisation besteht ausschließlich aus Geschäftsleuten. Wir kennen ihre Absichten nicht. Aber es scheint nicht der ursprünglichen Mission von OpenAI zu folgen. Wir wollten also zeigen – und hoffentlich wird Discovery weitere Informationen darüber enthüllen –, dass dies ein kollektives Schema zwischen Microsoft, OpenAI und GitHub ist, das nicht so vorteilhaft oder so altruistisch ist, wie sie uns glauben machen wollen.

Was befürchten Sie, wird passieren, wenn Microsoft, GitHub, OpenAI und andere Akteure in der Branche, die generative KI-Modelle entwickeln, weiterhin die Daten anderer Personen auf diese Weise verwenden dürfen?

TM: Letztendlich könnte es das Ende von Open-Source-Lizenzen insgesamt sein. Denn wenn Unternehmen Ihre Lizenzen nicht respektieren, was bringt es dann überhaupt, sie in Ihren Code aufzunehmen? Wenn es aufgeschnappt und ohne Zuschreibung wieder ausgespuckt wird? Wir glauben, dass Open-Source-Code für die Menschheit und die Technologiewelt von enormem Nutzen ist, und wir glauben nicht, dass KI, die nicht versteht, wie man codiert, und nur Wahrscheinlichkeitsvermutungen anstellen kann, nicht besser ist als die Innovation die menschliche Programmierer liefern können.

„Jemand kommt und sagt: ‚Lasst uns die Kosten sozialisieren und die Gewinne privatisieren.’“

MB: Ja, ich denke wirklich, dass dies eine existenzielle Bedrohung für Open Source ist. Und vielleicht ist es nur meine Generation, aber ich habe genug Situationen gesehen, in denen es eine nette, kostenlose Community gibt, die im Internet operiert, und jemand kommt und sagt: „Lasst uns die Kosten sozialisieren und die Gewinne privatisieren.“

Wenn Sie den Code von den Erstellern trennen, was bedeutet das? Lassen Sie mich Ihnen ein Beispiel geben. Ich habe mit einem Ingenieur in Europa gesprochen, der sagte: „Attribution ist eine wirklich große Sache für mich, denn so bekomme ich alle meine Kunden. Ich mache Open-Source-Software; Leute benutzen meine Pakete, sehen meinen Namen darauf und kontaktieren mich, und ich verkaufe ihnen mehr Engineering oder Support.“ Er sagte: „Wenn Sie meine Zuschreibung aufheben, ist meine Karriere vorbei und ich kann meine Familie nicht ernähren, ich kann nicht leben.“ Und es zeigt wirklich, dass dies für viele Programmierer kein harmloses Problem ist.

Aber glauben Sie, dass Tools wie Copilot die Zukunft sind und dass sie für Programmierer im Allgemeinen besser sind?

MB: Ich liebe KI, und seit ich acht Jahre alt war, war es ein Traum von mir, mit einem Computer zu spielen, dass wir diesen Maschinen beibringen können, so zu denken, wie wir es tun, und deshalb denke ich, dass dies ein wirklich interessantes und wunderbares Feld ist . Aber ich kann nur auf das Napster-Beispiel zurückkommen: das [these systems] sind nur der erste Schritt, und egal wie viele Leute Napster toll fanden, es war auch völlig illegal, und wir haben viel besser gemacht, indem wir alle an einen Tisch gebracht und es für alle fair gemacht haben.

Also, was ist ein Heilmittel, das Sie gerne implementiert sehen würden? Einige Leute argumentieren, dass es keine gute Lösung gibt, dass die Trainingsdatensätze zu groß sind, dass die KI-Modelle zu komplex sind, um die Zuordnung wirklich nachzuvollziehen und zu würdigen. Was halten Sie davon?

Cadio Zirpoli: Wir möchten, dass sie ihre KI auf eine Weise trainieren, die die Lizenzen respektiert und eine Zuordnung ermöglicht. Ich habe auf Chat-Boards gesehen, dass es für Leute, die das nicht wollen, Möglichkeiten gibt, sich abzumelden oder zuzustimmen, sondern die Hände hochzuwerfen und zu sagen: „Es ist zu schwer, also lassen Sie Microsoft einfach tun, was sie wollen.“ ist keine Lösung, mit der wir leben wollen.

Glauben Sie, dass diese Klage in anderen Medien der generativen KI Vorrang haben könnte? Wir sehen ähnliche Beschwerden bei der Text-to-Image-KI, dass Unternehmen, einschließlich OpenAI, beispielsweise urheberrechtlich geschützte Bilder ohne entsprechende Genehmigung verwenden.

CZ: Die einfachere Antwort ist ja.

TM: Der DMCA gilt gleichermaßen für alle Formen von urheberrechtlich geschütztem Material, und Bilder beinhalten oft eine Namensnennung; Wenn Künstler ihre Werke online stellen, fügen sie normalerweise einen Urheberrechtshinweis oder eine Creative-Commons-Lizenz hinzu, und diese werden ebenfalls ignoriert [companies creating] Bildgeneratoren.

Was passiert also als nächstes mit dieser Klage? Ich glaube, dass Ihnen für diese Klage der Status einer Sammelklage zuerkannt werden muss, damit sie weitergeführt werden kann. Was denkst du, in welchem ​​Zeitraum könnte das passieren?

CZ: Nun, wir erwarten, dass Microsoft einen Antrag auf Abweisung unseres Falls stellt. Wir glauben, dass wir erfolgreich sein werden, und der Fall wird fortgesetzt. Wir werden eine Entdeckungsphase einlegen, und dann werden wir das Gericht zur Klassenzertifizierung verlegen. Der Zeitpunkt dafür kann in Bezug auf verschiedene Gerichte und verschiedene Richter stark variieren, also müssen wir sehen. Aber wir glauben, dass wir einen verdienstvollen Fall haben und dass es uns gelingen wird, nicht nur den Antrag auf Abweisung zu bewältigen, sondern auch unsere Klasse zu zertifizieren.