Perceptron: mehrsprachige, lachende, trickreiche und einfallsreiche KI

Die Forschung im Bereich des maschinellen Lernens und der KI, mittlerweile eine Schlüsseltechnologie in praktisch jeder Branche und jedem Unternehmen, ist viel zu umfangreich, als dass irgendjemand sie alle lesen könnte. Diese Kolumne, Perceptron, zielt darauf ab, einige der relevantesten jüngsten Entdeckungen und Veröffentlichungen - insbesondere, aber nicht beschränkt auf künstliche Intelligenz - zusammenzustellen und zu erklären, warum sie wichtig sind.

In den letzten Wochen haben Google-Forscher ein KI-System namens PaLI demonstriert, das zahlreiche Aufgaben in über 100 Sprachen ausführen kann. An anderer Stelle hat eine in Berlin ansässige Gruppe ein Projekt namens Source+ gestartet, das Künstlern, darunter bildenden Künstlern, Musikern und Schriftstellern, die Möglichkeit geben soll, sich dafür zu entscheiden – und sich dagegen zu entscheiden –, dass ihre Arbeit als Trainingsdaten für die verwendet wird KI.

KI-Systeme wie GPT-3 von OpenAI können recht vernünftigen Text generieren oder vorhandenen Text aus dem Internet, E-Books und anderen Informationsquellen zusammenfassen. Aber sie waren immer auf eine einzige Sprache beschränkt, was sowohl ihre Nützlichkeit als auch ihren Umfang einschränkt.

Glücklicherweise hat sich die Erforschung mehrsprachiger Systeme in den letzten Monaten beschleunigt, teilweise aufgrund von Community-Bemühungen wie Bloom von Hugging Face. Um diese Fortschritte in der Mehrsprachigkeit zu nutzen, hat ein Google-Team PaLI entwickelt, das sowohl mit Bildern als auch mit Text trainiert wurde, um Aufgaben wie Bildunterschriften, Objekte und optische Zeichenerkennung auszuführen.

Google PaLI

Bildnachweis :Google

Google behauptet, dass PaLI 109 Sprachen und die Beziehungen zwischen Wörtern in diesen Sprachen und Bildern verstehen kann, was es beispielsweise ermöglicht, ein Postkartenbild auf Französisch zu beschriften. Während sich die Arbeit noch in der Forschungsphase befindet, veranschaulichen die Schöpfer das wichtige Zusammenspiel zwischen Sprache und Bildern – und könnten die Grundlage für ein kommerzielles Produkt auf der ganzen Linie legen.

Sprache ist ein weiterer Aspekt der Sprache, bei dem sich die KI ständig verbessert. Play.ht hat kürzlich ein neues Text-to-Speech-Modell eingeführt, das eine bemerkenswerte Menge an Emotionen und Bandbreite in seine Ergebnisse bringt. Die Clips, die er letzte Woche veröffentlicht hat, sehen fantastisch aus, obwohl sie natürlich sorgfältig ausgewählt sind.

Wir haben unseren eigenen Clip mit dem Intro dieses Artikels erstellt, und die Ergebnisse sind immer noch solide:

https://techcrunch.com/wp-content/uploads/2022/09/perceptron-peregrine.wav

Es ist noch unklar, wofür diese Art der Spracherzeugung am nützlichsten sein wird. Wir sind noch nicht so weit, dass sie ganze Bücher machen – oder besser gesagt, sie können es, aber es ist vielleicht noch nicht die erste Wahl von irgendjemandem. Aber mit steigender Qualität vervielfachen sich die Anwendungen.

Mat Dryhurst und Holly Herndon, ein Akademiker bzw. ein Musiker, haben sich mit der Organisation Spawning zusammengetan, um Source+ auf den Markt zu bringen, einen Standard, von dem er hofft, dass er die Aufmerksamkeit auf das Problem von KI-Systemen lenkt, die Fotos erstellen, die aus Werken von Künstlern erstellt wurden, die es waren nicht informiert oder um Erlaubnis gebeten. Source+, das kostenlos ist, soll es Künstlern ermöglichen, die Verwendung ihrer Arbeit für KI-Trainingszwecke abzulehnen, wenn sie dies wünschen.

Bilderzeugungssysteme wie Stable Diffusion und DALL-E 2 wurden mit Milliarden von Bildern trainiert, die aus dem Internet abgerufen wurden, um zu „lernen“, wie Textaufforderungen in Kunst übersetzt werden. Einige dieser Bilder stammen von öffentlichen Kunstgemeinschaften wie ArtStation und DeviantArt (nicht unbedingt mit Künstlerwissen) und durchdrungene Systeme mit der Fähigkeit, bestimmte Schöpfer nachzuahmen, darunter Künstler wie Greg Rutowski.

>

Perceptron: mehrsprachige, lachende, trickreiche und einfallsreiche KI

Die Forschung im Bereich des maschinellen Lernens und der KI, mittlerweile eine Schlüsseltechnologie in praktisch jeder Branche und jedem Unternehmen, ist viel zu umfangreich, als dass irgendjemand sie alle lesen könnte. Diese Kolumne, Perceptron, zielt darauf ab, einige der relevantesten jüngsten Entdeckungen und Veröffentlichungen - insbesondere, aber nicht beschränkt auf künstliche Intelligenz - zusammenzustellen und zu erklären, warum sie wichtig sind.

In den letzten Wochen haben Google-Forscher ein KI-System namens PaLI demonstriert, das zahlreiche Aufgaben in über 100 Sprachen ausführen kann. An anderer Stelle hat eine in Berlin ansässige Gruppe ein Projekt namens Source+ gestartet, das Künstlern, darunter bildenden Künstlern, Musikern und Schriftstellern, die Möglichkeit geben soll, sich dafür zu entscheiden – und sich dagegen zu entscheiden –, dass ihre Arbeit als Trainingsdaten für die verwendet wird KI.

KI-Systeme wie GPT-3 von OpenAI können recht vernünftigen Text generieren oder vorhandenen Text aus dem Internet, E-Books und anderen Informationsquellen zusammenfassen. Aber sie waren immer auf eine einzige Sprache beschränkt, was sowohl ihre Nützlichkeit als auch ihren Umfang einschränkt.

Glücklicherweise hat sich die Erforschung mehrsprachiger Systeme in den letzten Monaten beschleunigt, teilweise aufgrund von Community-Bemühungen wie Bloom von Hugging Face. Um diese Fortschritte in der Mehrsprachigkeit zu nutzen, hat ein Google-Team PaLI entwickelt, das sowohl mit Bildern als auch mit Text trainiert wurde, um Aufgaben wie Bildunterschriften, Objekte und optische Zeichenerkennung auszuführen.

Google PaLI

Bildnachweis :Google

Google behauptet, dass PaLI 109 Sprachen und die Beziehungen zwischen Wörtern in diesen Sprachen und Bildern verstehen kann, was es beispielsweise ermöglicht, ein Postkartenbild auf Französisch zu beschriften. Während sich die Arbeit noch in der Forschungsphase befindet, veranschaulichen die Schöpfer das wichtige Zusammenspiel zwischen Sprache und Bildern – und könnten die Grundlage für ein kommerzielles Produkt auf der ganzen Linie legen.

Sprache ist ein weiterer Aspekt der Sprache, bei dem sich die KI ständig verbessert. Play.ht hat kürzlich ein neues Text-to-Speech-Modell eingeführt, das eine bemerkenswerte Menge an Emotionen und Bandbreite in seine Ergebnisse bringt. Die Clips, die er letzte Woche veröffentlicht hat, sehen fantastisch aus, obwohl sie natürlich sorgfältig ausgewählt sind.

Wir haben unseren eigenen Clip mit dem Intro dieses Artikels erstellt, und die Ergebnisse sind immer noch solide:

https://techcrunch.com/wp-content/uploads/2022/09/perceptron-peregrine.wav

Es ist noch unklar, wofür diese Art der Spracherzeugung am nützlichsten sein wird. Wir sind noch nicht so weit, dass sie ganze Bücher machen – oder besser gesagt, sie können es, aber es ist vielleicht noch nicht die erste Wahl von irgendjemandem. Aber mit steigender Qualität vervielfachen sich die Anwendungen.

Mat Dryhurst und Holly Herndon, ein Akademiker bzw. ein Musiker, haben sich mit der Organisation Spawning zusammengetan, um Source+ auf den Markt zu bringen, einen Standard, von dem er hofft, dass er die Aufmerksamkeit auf das Problem von KI-Systemen lenkt, die Fotos erstellen, die aus Werken von Künstlern erstellt wurden, die es waren nicht informiert oder um Erlaubnis gebeten. Source+, das kostenlos ist, soll es Künstlern ermöglichen, die Verwendung ihrer Arbeit für KI-Trainingszwecke abzulehnen, wenn sie dies wünschen.

Bilderzeugungssysteme wie Stable Diffusion und DALL-E 2 wurden mit Milliarden von Bildern trainiert, die aus dem Internet abgerufen wurden, um zu „lernen“, wie Textaufforderungen in Kunst übersetzt werden. Einige dieser Bilder stammen von öffentlichen Kunstgemeinschaften wie ArtStation und DeviantArt (nicht unbedingt mit Künstlerwissen) und durchdrungene Systeme mit der Fähigkeit, bestimmte Schöpfer nachzuahmen, darunter Künstler wie Greg Rutowski.

>

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow