DEINKIKOMPASS.de

View Original

DALL-E 3 ist da und kommt zu ChatGPT - KI-Bilder im Chat

OpenAIs Text-to-Image AI Tool DALL-E 3 ist da und transformiert deine Ideen direkt in erstaunliche Bilder. Dabei ist das Tool auf ChatGPT aufgebaut und wird für User des Chatbots integriert. DALL-E 3 ist deutlich leistungsfähiger als DALL-E 2 (es kann z.B. Text richtig darstellen) und hat einige Sicherheitsvorkehrungen zu bieten.

OpenAI’s offizieller Trailer zu DALL-E 3

Die Bilderstellung mit KI wird immer beeindruckender – und einfacher. Dafür sorgt künftig auch DALL-E 3 von OpenAI. Die neueste Version des Text-to-Image Tools kann mit Text beschriebene Ideen in Bilder umwandeln, die diesen Vorgaben besonders gut entsprechen. Dabei müssen User die Prompts nicht mehr komplett selbst erarbeiten, weil der KI-Bot ChatGPT ihnen aktiv dabei hilft und diese optimieren kann.

Das KI-Unternehmen hat die KI-Bilderstellung auf ein neues Level gehoben, gleichzeitig aber auch Sicherheitsvorkehrungen für das KI-System getroffen, die auch den Schutz vor Kopien von Künstlern betreffen. OpenAI gibt sich selbstbewusst hinsichtlich der Leistungsfähigkeit des neuen Tools:

Modern text-to-image systems have a tendency to ignore words or descriptions, forcing users to learn prompt engineering. DALL·E 3 represents a leap forward in our ability to generate images that exactly adhere to the text you provide.

Das Tool ist nicht für alle ChatGPT User verfügbar

Auf dem offiziellen Blog erklärt das Unternehmen, dass die neue Dall-E 3 Version ab Oktober 2023 für Nutzer der Bezahlmodelle ChatGPT Plus und ChatGPT Enterprise über die API und die Labs (Beta-Einstellungen von ChatGPT) verfügbar sein wird. Derzeit befindet es sich noch in der Testversion. Das Tool soll in der neuen Version deutlich besser mit nuancierten Bildbeschreibungen umgehen können als die vorangegangene Version DALL-E 2 (das im Juli immerhin GPT-4 Support erhielt - nur für Entwickler über die API). So können Bilder entstehen, die sehr nah an die Vorstellungen der User heranreichen.

Auf dem OpenAI Blog erläutert das Unternehmen anhand eines Bildbeispiels, inwieweit DALL-E 3 auch kleine Details einer Bildbeschreibung wahrzunehmen und visuell abzubilden imstande ist.

DALL-E 3 produziert Bilder nach sehr genauen Angaben von Usern, © OpenAI

Und OpenAI liefert sogar ein Beispiel dafür, welches Ergebnis DALL-E 2 für einen spezifischen Prompt liefert und wie das Ergebnis bei DALL-E 3 im Gegensatz dazu aussieht.

Ergebnis von DALL-E 3

„An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.“

Ergebnis von DALL-E 2

„An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.“

Brainstorming mit ChatGPT als Vorteil für die schnellere Bild-Erstellung

Laut OpenAI können User ChatGPT für das Brainstorming oder zum Verfeinern bereits vorhandener Bildideen, die textlich festgelegt sind, nutzen. Immerhin ist DALL-E 3 nativ auf ChatGPT aufgebaut. Ob ein einfacher Satz oder eine ausführliche Beschreibung mit einigen Absätzen, das Tool versucht, möglichst detaillierte Bilder zu kreieren. Will DePue von OpenAI zeigt auf X (ehemals Twitter) einige Beispiele:

Aus Sicherheitsgründen soll das Tool keine Inhalte erstellen können, die gewaltverherrlichend sind oder auf Hass verbreiten. Auch Adult Content (also stark sexualisierte Inhalte) sollen ausgeschlossen werden. Zudem werden Anfragen, die zur Erstellung von Bildern zu Personen des öffentlichen Lebens hinführen sollen, von dem Tool abgelehnt (leider!). Und OpenAI hat darüber hinaus festgelegt, dass Anfragen zur Erstellung von Bildern im Stil lebender Künstler nicht angenommen werden - im Gegensatz zu Midjourney, das solche Anfragen fördert bzw. extra unterstützt. Es geht also einen ähnlichen Weg, wie Adobe mit Adobe Firefly. Auch können Creator per Opt-out sicherstellen, dass ihre Kreationen nicht für künftige KI-Trainings genutzt werden. Derweil testet das Unternehmen ebenfalls einen Klassifikator, der feststellen können soll, ob ein Bild KI-generiert ist oder nicht. Mal gucken, ob das klappt.

Mit DALL-E 3 tritt OpenAI in den Wettbewerb mit Adobe Firefly, Canva und Midjourney, Stable Diffusion, FlexClip und dem Bing Image Creator, die allesamt KI-basierte Bilderstellung ermöglichen.

KI-Tools werden immer weiter aufgewertet: Auch Google, Adobe und Co. mischen mit

Mit dem Launch von ChatGPT und dem damit einhergehenden Boost für die Entwicklung und Integration von generativen KI-Tools ist OpenAI zu einem äußerst relevanten Player in der Digitalbranche avanciert. Das KI-Unternehmen, das eng mit Microsoft zusammenarbeitet und vom Tech-Konzern ein Investment in Milliardenhöhe erhielt, liefert immer neue Tools und KI-Funktionen. Vor allem der Launch des multifunktionalen KI-Modells GPT-4 sorgte für Aufsehen. Zuletzt hat das Unternehmen die bisher beste ChatGPT-Version, ChatGPT Enterprise, das Fine Tuning für das Modell GPT-3.5 Turbo und auch die Custom Instructions als kostenlose Version für die meisten User vorgestellt. Der Präsident des Unternehmens, Greg Brockmann, gab auf X zudem bekannt, dass die neue Finetuning UI jetzt live ist.

Beim OpenAI DevDay, der ersten Developer-Konferenz des Unternehmens, sollen im November noch mehr neue KI-Lösungen vorgestellt werden. Und die Branche wartet gespannt - auch wir werden berichten.

Unterdessen bieten auch andere Tech-Unternehmen vielversprechende neue Lösungen auf Basis von generativer KI. Adobe beispielsweise hat die Firefly-Lösungen kommerziell verfügbar gemacht. Damit können viele Creator ebenfalls Bild- und Videoelemente auf einem hohen Niveau mithilfe von KI erstellen. Apple arbeitet mit Hochdruck an einer eigenen Conversational AI, die mit ChatGPT und Co. konkurrieren könnte. Die ChatGPT-Konkurrenz Bard von Google hat auch kürzlich ein enorm großes Update erhalten und ist jetzt leistungsfähiger denn je. Auch, weil die Verknüpfung mit anderen Google-Diensten möglich gemacht wurde. Außerdem hat Google das neue KI-Modell Gemini für erste Unternehmen zur Verfügung gestellt. Dieses soll mit GPT-4 konkurrieren können und noch deutlich leistungsfähiger sein als das gegenwärtig öffentliche KI-Modell von Google PaLM 2, das kürzlich ebenfalls optimiert wurde.

Häufig gestellte Fragen zum Thema

Was ist DALL-E 3 und wie unterscheidet es sich von DALL-E 2?

DALL-E 3 ist die neueste Version von OpenAI's Text-to-Image KI-Tool. Es ist in ChatGPT integriert und hat erweiterte Funktionen und verbesserte Sicherheitsmaßnahmen im Vergleich zu DALL-E 2. Mit DALL-E 3 können Benutzer komplexe und nuancierte Bildbeschreibungen in visuelle Kunstwerke umwandeln.

Ist DALL-E 3 für alle ChatGPT-Nutzer verfügbar?

Nein, DALL-E 3 wird zunächst nur für Nutzer der Bezahlmodelle ChatGPT Plus und ChatGPT Enterprise zugänglich sein.

Was sind die neuen Sicherheitsfeatures von DALL-E 3?

DALL-E 3 hat Maßnahmen getroffen, um den Schutz vor KI-generierten Kopien von Werken von renommierten Künstlern sicherzustellen und gewaltverherrlichende oder hasserfüllte Inhalte zu verhindern.

Wie hilft ChatGPT bei der Nutzung von DALL-E 3?

ChatGPT assistiert aktiv bei der Erstellung von Prompts (Bildbeschreibungen), die dann von DALL-E 3 in Bilder umgewandelt werden.