Revolution oder Hype? Sora und die Zukunft des KI-Filmmachens

April 27, 2024 Jannik

Künstliche Intelligenz revolutioniert zahlreiche Branchen, und nun steht auch die Filmindustrie an der Schwelle einer neuen Ära. OpenAIs Videogenerierungs-Tool Sora hat die KI-Community im Februar überrascht, mit flüssigen, realistischen Videos, die scheinbar weit vor jeder Konkurrenz liegen. Doch das sorgfältig inszenierte Debüt ließ viele Details aus – Details, die nun von einem Filmemacher ergänzt wurden, der frühzeitig Zugang erhielt, um einen Kurzfilm mit Sora zu erstellen.

Bildquelle: Shy Kids

Einsatz von Sora in der Praxis

Das digitale Produktionsteam Shy Kids aus Toronto, Kanada wurde ausgewählt, um Kurzfilme zu erstellen, die hauptsächlich zu Werbezwecken von OpenAI dienten. Sie erhielten erhebliche kreative Freiheiten bei der Erstellung von „air head“. In einem Interview mit dem Nachrichtenportal für visuelle Effekte “fxguide” beschrieb der Postproduktionskünstler Patrick Cederberg die tatsächliche Nutzung von Sora als Teil seiner Arbeit.

Grenzen und Herausforderungen der KI-Videos

Ein wichtiger Aspekt, der hervorgehoben werden sollte, ist folgender: Während OpenAIs Berichte die Kurzfilme so darstellen, als wären sie fast vollständig von Sora erschaffen worden, war die Realität, dass es sich um professionelle Produktionen handelte, komplett mit umfassendem Storyboarding, Schnitt, Farbkorrektur und Nachbearbeitungen wie Rotoskopieren und VFX. Ähnlich wie Apple bei den Werbekampagnen „shot on iPhone“ angibt, aber die Studioumgebung, professionelle Beleuchtung und nachträgliche Farbarbeiten nicht zeigt, spricht der Bericht über Sora nur darüber, was es den Menschen ermöglicht zu tun, nicht wie sie es tatsächlich getan haben.

Cederbergs Interview ist interessant und ziemlich untechnisch, also wenn es dich interessiert, besuche fxguide und lies es. Aber hier sind einige interessante Details über die Nutzung von Sora, die zeigen, dass es, so beeindruckend es auch sein mag, vielleicht doch kein so großer Sprung nach vorne ist, wie wir dachten.

Die Kontrolle ist immer noch das am meisten gewünschte und zugleich am schwersten zu erreichende Ziel. Die beste Annäherung war es, extrem detailliert in unseren Prompts zu sein. Die Erklärung der Garderobe für Charaktere sowie die Art des Ballons waren unser Weg, Konsistenz zu erreichen, denn von Aufnahme zu Aufnahme / von Generation zu Generation gibt es noch keinen vollständigen Kontrollmechanismus über die Konsistenz.

Mit anderen Worten, Dinge, die im traditionellen Filmemachen einfach sind, wie die Auswahl der Kleidung eines Charakters, erfordern umständliche Umwege und Kontrollen in einem generativen System, da jede Aufnahme unabhängig von den anderen erstellt wird. Es gibt quasi keinen Kontext. Das könnte sich natürlich ändern, ist aber derzeit noch ein sehr mühsamer Prozess.

Auch mussten die Ausgaben von Sora auf unerwünschte Elemente überprüft werden: Cederberg beschrieb, wie das Modell routinemäßig ein Gesicht auf dem Ballon generierte, der den Kopf des Hauptcharakters darstellte, oder einen Faden, der vorne herunterhing. Diese mussten in der Postproduktion entfernt werden, ein weiterer zeitaufwändiger Prozess, wenn es nicht gelang, es durch Prompts im Vorhinein auszuschließen.

Genau getimte Bewegungen von Charakteren oder der Kamera sind auch nicht möglich: „Es gibt ein wenig zeitliche Kontrolle darüber, wo diese verschiedenen Aktionen in der tatsächlichen Generierung stattfinden, aber es ist nicht präzise ... es ist eher ein Schuss ins Blaue“, sagte Cederberg.

Zum Beispiel war das Timing einer Geste wie Winken ein sehr grober Prozess, anders als bei manuellen Animationen. Und eine Aufnahme wie ein Schwenk nach oben am Körper des Charakters könnte das, was der Filmemacher wollte, widerspiegeln oder auch nicht – daher hat das Team in diesem Fall eine Aufnahme im Hochformat gemacht und einen Schnittschwenk in der Postproduktion durchgeführt. Die generierten Clips waren auch oft aus unerklärlichen Gründen in Zeitlupe.

Tatsächlich waren die alltäglichen Begriffe des Filmemachens, wie „nach rechts schwenken“ oder „Tracking-Shot“, allgemein inkonsistent, sagte Cederberg, was das Team ziemlich überraschend fand.

„Die Forscher, bevor sie Künstler ansprachen, um mit dem Werkzeug zu spielen, hatten nicht wirklich wie Filmemacher gedacht“, sagte er.

Infolgedessen produzierte das Team hunderte Generationen, jede 10 bis 20 Sekunden lang, und verwendete letztendlich nur eine Handvoll. Cederberg schätzte das Verhältnis auf 300:1 – aber natürlich ist das Verhältnis auch nicht so wie viel besser bei einem gewöhnlichen Dreh.

Das Team drehte tatsächlich ein kleines Behind-the-Scenes, das einige der Probleme erklärte, auf die sie stießen, falls du neugierig bist. Wie bei vielen KI-nahen Inhalten sind die Kommentare ziemlich kritisch gegenüber dem gesamten Unterfangen – wenn auch nicht ganz so harsch wie die kürzlich verspottete KI-gestützte Werbung von UnderArmour.

Rechtliche und ethische Überlegungen

Der letzte interessante Aspekt betrifft das Urheberrecht: Wenn du Sora bittest, dir einen „Star Wars“-Clip zu erstellen, wird es sich weigern. Und wenn du versuchst, es mit „Mann in Robe mit einem Laserschwert auf einem retrofuturistischen Raumschiff“ zu umgehen, wird es sich ebenfalls weigern, da es durch irgendeinen Mechanismus erkennt, was du zu tun versuchst. Es weigerte sich z.B. auch, einen „Hitchcock-Zoom“ zu machen.

Einerseits macht das durchaus Sinn. Aber es wirft die Frage auf: Wenn Sora weiß, was diese Sachen sind, bedeutet das, dass das Modell mit diesem Inhalt trainiert wurde, um besser erkennen zu können, dass es sich um eine Verletzung handelt? OpenAI, das seine Trainingsdaten darüber sehr geheim hält – bis zum Punkt der Absurdität, wie im Interview der OpenAI CTO Mira Murati mit Joanna Stern – wird uns das wohl nie verraten.

Fazit

Sora ist ein mächtiges neues Werkzeug, das Potenzial in der Filmindustrie hat, jedoch sind seine Fähigkeiten derzeit noch nicht ausgereift genug, um Filmsequenzen vollständig autonom zu erstellen. Die nahe Zukunft könnte jedoch spannende Entwicklungen bringen, wenn diese Technologien weiterhin verbessert werden.

Häufig gestellte Fragen zum Thema

Was ist Sora?

Sora ist ein von OpenAI entwickeltes KI-Video-Generierungstool, das realistische Videos erstellen kann.

Wie wurde Sora in der Praxis eingesetzt?

In Projekten wie dem Kurzfilm "air head" von Shy Kids wurde Sora eingesetzt, wobei die kreative Freiheit durch technische Einschränkungen begrenzt war.

Welche Herausforderungen gibt es bei der Nutzung von Sora?

Die größten Herausforderungen liegen in der Kontrolle und Konsistenz der generierten Inhalte, was oft umständliche Arbeitsprozesse erfordert.

Was sind die rechtlichen Einschränkungen von Sora?

Sora unterliegt strengen urheberrechtlichen Einschränkungen, die die Erstellung von Inhalten, die geschützte Werke nachahmen könnten, verhindern.

Wie sieht die Zukunft von KI in der Filmproduktion aus?

Obwohl Sora aktuell noch nicht perfekt ist, könnte die Weiterentwicklung dieser Technologien eine Revolution in der Filmproduktion bedeuten.