Meta FAIR Team Präsentiert Neue Durchbruch-Modelle
Seit über einem Jahrzehnt arbeitet das Fundamental AI Research (FAIR) Team von Meta daran, den Stand der Technik in der Künstlichen Intelligenz durch offene Forschung voranzutreiben. In einer Zeit, in der die KI-Entwicklung rasante Fortschritte macht, ist die Zusammenarbeit mit der globalen KI-Gemeinschaft wichtiger denn je. Meta gab nun die Veröffentlichung von fünf neuen Modellen bekannt, die darauf abzielen, die KI-Entwicklung in verantwortungsvoller Weise voranzutreiben.
Chameleon
Meta stellt Chameleon vor, eine Familie von Mixed-Modal Modellen, die sowohl Text als auch Bilder verstehen und generieren können. Während die meisten großen Sprachmodelle in der Regel unimodale Ergebnisse liefern, kann Chameleon jede Kombination aus Text und Bildern als Eingabe verarbeiten und sowohl Text als auch Bilder ausgeben. Dies eröffnet unzählige Möglichkeiten, wie zum Beispiel das Erstellen kreativer Bildunterschriften oder das Kombinieren von Textaufforderungen und Bildern zur Schaffung völlig neuer Szenen. Wichtige Komponenten von Chameleon werden unter einer reinen Forschungslizenz veröffentlicht, um die Weiterentwicklung durch die KI-Gemeinschaft zu fördern.
Multi-Token Vorhersage
Große Sprachmodelle (LLMs) revolutionieren die Textgenerierung, das Brainstorming und die Beantwortung von Fragen. Traditionell basiert das Training dieser Modelle auf der Vorhersage des nächsten Wortes. Diese Methode ist jedoch ineffizient und erfordert wesentlich mehr Text als das, was Kinder zum Erlernen derselben Sprachkompetenz benötigen. Meta hat einen neuen Ansatz vorgeschlagen, bei dem Sprachmodelle darauf trainiert werden, mehrere zukünftige Wörter gleichzeitig vorherzusagen. Wir veröffentlichen die vortrainierten Modelle für die Code-Vervollständigung unter einer nicht-kommerziellen Forschungslizenz.
JASCO
Generative KI ermöglicht es Menschen, ihre Kreativität auf neue Weise zu erkunden, wie beispielsweise durch die Umwandlung von Textaufforderungen in Musikclips. Unser neues Modell JASCO akzeptiert verschiedene Eingaben, wie Akkorde oder Beats, und bietet dadurch mehr Kontrolle über die generierten Musikoutputs. Dies ermöglicht die Kombination von Symbolen und Audio im selben Text-zu-Musik-Generierungsmodell. JASCO liefert im Vergleich zu den bewerteten Basismodellen ähnliche Qualität, bietet jedoch erheblich bessere und vielseitigere Steuerungsmöglichkeiten.
AudioSeal
AudioSeal ist die erste Audiowasserzeichentechnologie, die speziell für die lokale Erkennung von KI-generierter Sprache entwickelt wurde. AudioSeal ermöglicht die genaue Lokalisierung von KI-generierten Segmenten innerhalb längerer Audioschnipsel. Im Gegensatz zu herkömmlichen Methoden, die komplexe Dekodierungsalgorithmen erfordern, ermöglicht der lokale Erkennungsansatz von AudioSeal eine bis zu 485-mal schnellere Erkennung, was es für großflächige und Echtzeitanwendungen geeignet macht. AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht und ist Teil unserer Bemühungen, den Missbrauch generativer KI-Werkzeuge zu verhindern.
Erhöhung der Diversität in Text-zu-Bild-Generierungssystemen
Es ist wichtig, dass Text-zu-Bild-Modelle für alle gut funktionieren und die geografische und kulturelle Vielfalt der Welt widerspiegeln. Daher haben wir automatische Indikatoren entwickelt, um potenzielle geografische Unterschiede in Text-zu-Bild-Modellen zu bewerten. Zusätzlich haben wir eine groß angelegte Annotationsstudie durchgeführt, um zu verstehen, wie Menschen in verschiedenen Regionen die geografische Darstellung wahrnehmen. Wir haben über 65.000 Annotationen und mehr als zwanzig Umfragen pro Beispiel gesammelt, um Empfehlungen zur Verbesserung der automatischen und menschlichen Bewertungen von Text-zu-Bild-Modellen zu geben. Heute veröffentlichen wir den Code zur Bewertung geografischer Unterschiede und unsere Annotationen, um der Gemeinschaft zu helfen, die Diversität ihrer generativen Modelle zu verbessern.
Fazit
Meta's FAIR Team setzt weiterhin neue Maßstäbe in der KI-Forschung durch die offene Veröffentlichung bahnbrechender Modelle. Diese neuen Werkzeuge, von Mixed-Modal Modellen bis hin zu innovativen Erkennungstechnologien, sind darauf ausgelegt, die KI-Entwicklung zu fördern und gleichzeitig verantwortungsbewusste und ethische Praktiken zu unterstützen. Wir sind gespannt, wie die globale KI-Gemeinschaft diese Technologien weiterentwickeln und einsetzen wird, um die Zukunft der künstlichen Intelligenz zu gestalten.