KI-Datenaufhellung

Gestern kündigte das KI-Forschungsteam von Meta Make-A-Video an, ein "hochmodernes KI-System, das Videos aus Text generiert".

Wir freuen uns, Make-A-Video vorzustellen, unsere neueste generative KI-Forschung! In nur wenigen Worten generiert dieses hochmoderne KI-System hochwertige Videos aus Texteingabeaufforderungen.

Haben Sie eine Idee, die Sie sehen möchten? Antworten Sie auf Ihre Aufforderung mit #MetaAI und wir teilen weitere Ergebnisse. pic.twitter.com/q8zjiwLBjb
– Meta AI (@MetaAI) 29. September 2022
Wie bei den stabilen Streaming-Daten erstellte Simon Willison einen Datasette-Browser, um WebVid-10M zu erkunden, einen von zwei Datensätzen, die zum Trainieren des Videogenerierungsmodells verwendet wurden, und erfuhr schnell, dass es sich um 10,7 Millionen Videoclips handelte gezogen von Shutterstock, Wasserzeichen und alles.

Zusätzlich zu Shutterstock-Clips verwendete Meta auch 10 Millionen Videoclips aus diesem 100-Millionen-Videodatensatz von Microsoft Research Asia. Es wird auf ihrem GitHub nicht erwähnt, aber wenn Sie in der Zeitung stöbern, erfahren Sie, dass jeder Clip aus über 3 Millionen YouTube-Videos stammt.

Zusätzlich zu einem Großteil der Videosammlung von Shutterstock verwendet Meta also auch Millionen von YouTube-Videos, die von Microsoft gesammelt wurden, um seine Text-zu-Video-KI zu erstellen.
Nicht-kommerzielle Nutzung
Die akademischen Forscher, die den Shutterstock-Datensatz zusammengestellt haben, räumten in ihrem Artikel die Auswirkungen auf das Urheberrecht ein und schrieben: „Die Verwendung der für diese Studie gesammelten Daten ist über Urheberrechtsausnahmen gestattet. Amt für geistiges Eigentum, Urheberrecht für nichtkommerzielle Forschung und private Studien.“ .

Aber dann verwendet Meta diese nichtkommerziellen akademischen Datensätze, um ein Modell zu trainieren, vermutlich für die zukünftige kommerzielle Nutzung in ihren Produkten. Seltsam, oder?

Nicht wirklich. Für Technologieunternehmen, die mit KI arbeiten, ist es zur gängigen Praxis geworden, Datensätze und Modelle kommerziell zu nutzen, die von nichtkommerziellen Forschungseinrichtungen wie Universitäten oder gemeinnützigen Organisationen gesammelt und trainiert wurden. lukrativ.

In einigen Fällen finanzieren sie diese Forschung direkt.

Zum Beispiel glauben viele Leute, dass Stability AI den berühmten Text-zu-Bild-KI-Generator Stable Diffusion entwickelt hat, aber sie haben seine Entwicklung von der Forschungsgruppe Machine Vision & Learning an der Ludwig-Maximilians-Universität München finanziert. In ihrem Antrag für das Projekt danken die LMU-Forscher Stability AI für die „großzügige Gabe der Berechnung“, die es ermöglicht hat.

Die riesigen Bild-zu-Text-Untertitel-Datensätze, die zum Trainieren von Stable Diffusion, Googles Imagen und der Text-zu-Bild-Komponente von Make-A-Video verwendet wurden, wurden ebenfalls nicht von Stability AI erstellt. Sie waren alle von LAION, einer kleinen, in Deutschland registrierten gemeinnützigen Organisation. Stability AI finanziert auch direkt die Rechenressourcen von LAION.
Wechsel der Verantwortung
Warum ist das wichtig? Durch die Auslagerung der schweren Datenerfassung und Modellschulung an nichtkommerzielle Einrichtungen können Unternehmen Haftung und potenzielle rechtliche Haftung vermeiden.

Es ist derzeit unklar, ob das Trainieren von Deep-Learning-Modellen auf urheberrechtlich geschütztem Material eine Form der Verletzung darstellt, aber es ist schwieriger, wenn die Daten in einem nicht-kommerziellen Umfeld gesammelt und gebildet wurden. Einer der vier Faktoren der "Fair Use"-Ausnahme im US-Urheberrecht ist der Zweck oder die Art der Nutzung. Das U.S. Copyright Office schreibt in seinem Fair Use Index:

"Gerichte prüfen, wie die Partei, die die faire Nutzung beansprucht, das urheberrechtlich geschützte Werk verwendet, und finden eher pädagogische und nichtkommerzielle, gemeinnützige Nutzungen als fair."
Ein Bundesgericht könnte feststellen, dass die Datenerhebung und das Modelltraining gegen das Urheberrecht verstoßen, aber da es von einer Universität und einer gemeinnützigen Organisation durchgeführt wurde, fällt es unter faire Nutzung.

In der Zwischenzeit wäre es einem Unternehmen wie Stability AI freigestellt, diese Forschung in...

Technologie Oct 18, 2022 0 44 Add to Reading List

Gestern kündigte das KI-Forschungsteam von Meta Make-A-Video an, ein "hochmodernes KI-System, das Videos aus Text generiert".

Wir freuen uns, Make-A-Video vorzustellen, unsere neueste generative KI-Forschung! In nur wenigen Worten generiert dieses hochmoderne KI-System hochwertige Videos aus Texteingabeaufforderungen.

Haben Sie eine Idee, die Sie sehen möchten? Antworten Sie auf Ihre Aufforderung mit #MetaAI und wir teilen weitere Ergebnisse. pic.twitter.com/q8zjiwLBjb

– Meta AI (@MetaAI) 29. September 2022

Wie bei den stabilen Streaming-Daten erstellte Simon Willison einen Datasette-Browser, um WebVid-10M zu erkunden, einen von zwei Datensätzen, die zum Trainieren des Videogenerierungsmodells verwendet wurden, und erfuhr schnell, dass es sich um 10,7 Millionen Videoclips handelte gezogen von Shutterstock, Wasserzeichen und alles.

Zusätzlich zu Shutterstock-Clips verwendete Meta auch 10 Millionen Videoclips aus diesem 100-Millionen-Videodatensatz von Microsoft Research Asia. Es wird auf ihrem GitHub nicht erwähnt, aber wenn Sie in der Zeitung stöbern, erfahren Sie, dass jeder Clip aus über 3 Millionen YouTube-Videos stammt.

Zusätzlich zu einem Großteil der Videosammlung von Shutterstock verwendet Meta also auch Millionen von YouTube-Videos, die von Microsoft gesammelt wurden, um seine Text-zu-Video-KI zu erstellen.

Nicht-kommerzielle Nutzung

Die akademischen Forscher, die den Shutterstock-Datensatz zusammengestellt haben, räumten in ihrem Artikel die Auswirkungen auf das Urheberrecht ein und schrieben: „Die Verwendung der für diese Studie gesammelten Daten ist über Urheberrechtsausnahmen gestattet. Amt für geistiges Eigentum, Urheberrecht für nichtkommerzielle Forschung und private Studien.“ .

Aber dann verwendet Meta diese nichtkommerziellen akademischen Datensätze, um ein Modell zu trainieren, vermutlich für die zukünftige kommerzielle Nutzung in ihren Produkten. Seltsam, oder?

Nicht wirklich. Für Technologieunternehmen, die mit KI arbeiten, ist es zur gängigen Praxis geworden, Datensätze und Modelle kommerziell zu nutzen, die von nichtkommerziellen Forschungseinrichtungen wie Universitäten oder gemeinnützigen Organisationen gesammelt und trainiert wurden. lukrativ.

In einigen Fällen finanzieren sie diese Forschung direkt.

Zum Beispiel glauben viele Leute, dass Stability AI den berühmten Text-zu-Bild-KI-Generator Stable Diffusion entwickelt hat, aber sie haben seine Entwicklung von der Forschungsgruppe Machine Vision & Learning an der Ludwig-Maximilians-Universität München finanziert. In ihrem Antrag für das Projekt danken die LMU-Forscher Stability AI für die „großzügige Gabe der Berechnung“, die es ermöglicht hat.

Die riesigen Bild-zu-Text-Untertitel-Datensätze, die zum Trainieren von Stable Diffusion, Googles Imagen und der Text-zu-Bild-Komponente von Make-A-Video verwendet wurden, wurden ebenfalls nicht von Stability AI erstellt. Sie waren alle von LAION, einer kleinen, in Deutschland registrierten gemeinnützigen Organisation. Stability AI finanziert auch direkt die Rechenressourcen von LAION.

Wechsel der Verantwortung

Warum ist das wichtig? Durch die Auslagerung der schweren Datenerfassung und Modellschulung an nichtkommerzielle Einrichtungen können Unternehmen Haftung und potenzielle rechtliche Haftung vermeiden.

Es ist derzeit unklar, ob das Trainieren von Deep-Learning-Modellen auf urheberrechtlich geschütztem Material eine Form der Verletzung darstellt, aber es ist schwieriger, wenn die Daten in einem nicht-kommerziellen Umfeld gesammelt und gebildet wurden. Einer der vier Faktoren der "Fair Use"-Ausnahme im US-Urheberrecht ist der Zweck oder die Art der Nutzung. Das U.S. Copyright Office schreibt in seinem Fair Use Index:

"Gerichte prüfen, wie die Partei, die die faire Nutzung beansprucht, das urheberrechtlich geschützte Werk verwendet, und finden eher pädagogische und nichtkommerzielle, gemeinnützige Nutzungen als fair."

Ein Bundesgericht könnte feststellen, dass die Datenerhebung und das Modelltraining gegen das Urheberrecht verstoßen, aber da es von einer Universität und einer gemeinnützigen Organisation durchgeführt wurde, fällt es unter faire Nutzung.

In der Zwischenzeit wäre es einem Unternehmen wie Stability AI freigestellt, diese Forschung in...