Meta FAIR Team Präsentiert Neue Durchbruch-Modelle

Seit über einem Jahrzehnt arbeitet das Fundamental AI Research (FAIR) Team von Meta daran, den Stand der Technik in der Künstlichen Intelligenz durch offene Forschung voranzutreiben. In einer Zeit, in der die KI-Entwicklung rasante Fortschritte macht, ist die Zusammenarbeit mit der globalen KI-Gemeinschaft wichtiger denn je. Meta gab nun die Veröffentlichung von fünf neuen Modellen bekannt, die darauf abzielen, die KI-Entwicklung in verantwortungsvoller Weise voranzutreiben.

meta logo

Chameleon

Meta stellt Chameleon vor, eine Familie von Mixed-Modal Modellen, die sowohl Text als auch Bilder verstehen und generieren können. Während die meisten großen Sprachmodelle in der Regel unimodale Ergebnisse liefern, kann Chameleon jede Kombination aus Text und Bildern als Eingabe verarbeiten und sowohl Text als auch Bilder ausgeben. Dies eröffnet unzählige Möglichkeiten, wie zum Beispiel das Erstellen kreativer Bildunterschriften oder das Kombinieren von Textaufforderungen und Bildern zur Schaffung völlig neuer Szenen. Wichtige Komponenten von Chameleon werden unter einer reinen Forschungslizenz veröffentlicht, um die Weiterentwicklung durch die KI-Gemeinschaft zu fördern.

Multi-Token Vorhersage

Große Sprachmodelle (LLMs) revolutionieren die Textgenerierung, das Brainstorming und die Beantwortung von Fragen. Traditionell basiert das Training dieser Modelle auf der Vorhersage des nächsten Wortes. Diese Methode ist jedoch ineffizient und erfordert wesentlich mehr Text als das, was Kinder zum Erlernen derselben Sprachkompetenz benötigen. Meta hat einen neuen Ansatz vorgeschlagen, bei dem Sprachmodelle darauf trainiert werden, mehrere zukünftige Wörter gleichzeitig vorherzusagen. Wir veröffentlichen die vortrainierten Modelle für die Code-Vervollständigung unter einer nicht-kommerziellen Forschungslizenz.

JASCO

Generative KI ermöglicht es Menschen, ihre Kreativität auf neue Weise zu erkunden, wie beispielsweise durch die Umwandlung von Textaufforderungen in Musikclips. Unser neues Modell JASCO akzeptiert verschiedene Eingaben, wie Akkorde oder Beats, und bietet dadurch mehr Kontrolle über die generierten Musikoutputs. Dies ermöglicht die Kombination von Symbolen und Audio im selben Text-zu-Musik-Generierungsmodell. JASCO liefert im Vergleich zu den bewerteten Basismodellen ähnliche Qualität, bietet jedoch erheblich bessere und vielseitigere Steuerungsmöglichkeiten.

AudioSeal

AudioSeal ist die erste Audiowasserzeichentechnologie, die speziell für die lokale Erkennung von KI-generierter Sprache entwickelt wurde. AudioSeal ermöglicht die genaue Lokalisierung von KI-generierten Segmenten innerhalb längerer Audioschnipsel. Im Gegensatz zu herkömmlichen Methoden, die komplexe Dekodierungsalgorithmen erfordern, ermöglicht der lokale Erkennungsansatz von AudioSeal eine bis zu 485-mal schnellere Erkennung, was es für großflächige und Echtzeitanwendungen geeignet macht. AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht und ist Teil unserer Bemühungen, den Missbrauch generativer KI-Werkzeuge zu verhindern.

Erhöhung der Diversität in Text-zu-Bild-Generierungssystemen

Es ist wichtig, dass Text-zu-Bild-Modelle für alle gut funktionieren und die geografische und kulturelle Vielfalt der Welt widerspiegeln. Daher haben wir automatische Indikatoren entwickelt, um potenzielle geografische Unterschiede in Text-zu-Bild-Modellen zu bewerten. Zusätzlich haben wir eine groß angelegte Annotationsstudie durchgeführt, um zu verstehen, wie Menschen in verschiedenen Regionen die geografische Darstellung wahrnehmen. Wir haben über 65.000 Annotationen und mehr als zwanzig Umfragen pro Beispiel gesammelt, um Empfehlungen zur Verbesserung der automatischen und menschlichen Bewertungen von Text-zu-Bild-Modellen zu geben. Heute veröffentlichen wir den Code zur Bewertung geografischer Unterschiede und unsere Annotationen, um der Gemeinschaft zu helfen, die Diversität ihrer generativen Modelle zu verbessern.

Fazit

Meta's FAIR Team setzt weiterhin neue Maßstäbe in der KI-Forschung durch die offene Veröffentlichung bahnbrechender Modelle. Diese neuen Werkzeuge, von Mixed-Modal Modellen bis hin zu innovativen Erkennungstechnologien, sind darauf ausgelegt, die KI-Entwicklung zu fördern und gleichzeitig verantwortungsbewusste und ethische Praktiken zu unterstützen. Wir sind gespannt, wie die globale KI-Gemeinschaft diese Technologien weiterentwickeln und einsetzen wird, um die Zukunft der künstlichen Intelligenz zu gestalten.

Zurück
Zurück

SoundLabs und Universal Music Group bringen KI-Tools für Musiker auf den Markt

Weiter
Weiter

Anthropic stellt intelligentestes KI-Modell vor - Claude 3.5 Sonnet