Wie AI Videos generiert

Jetzt verstehst du, was AI-Video kann und was nicht. Aber wie funktioniert es eigentlich? Was passiert im Computer, wenn du einen Prompt sendest?

Die Flipbook-Metapher

Kennst du noch Daumenkinos? Du nimmst einen Block Papier, zeichnest auf jede Seite ein bisschen anders aussehende Bilder, und wenn du schnell durchblätterst, sieht es aus wie ein Film.

So funktioniert Video — digital. Ein Video ist kein kontinuierlicher Strom. Es sind einzelne Bilder (Frames), die so schnell nacheinander gezeigt werden, dass dein Auge sie als Bewegung wahrnimmt. Im Kino sind das 24 Frames pro Sekunde. Das Gehirn verbindet diese Bilder zu einer Geschichte.

AI-Video funktioniert ganz ähnlich. Der große Unterschied ist: Die AI zeichnet nicht jedes Bild von Hand. Sie schätzt sie. Sie sieht den Anfangszustand (Frame 1) und den Endzustand (Frame 30), und dann füllt sie die dazwischen liegenden Frames (2-29) aus — basierend darauf, was natürlich aussieht und welche Bewegungsmuster sie aus Millionen echten Videos gelernt hat.

Drei Schritte: Vom Prompt zum Video

Wenn du einen Video-Prompt sendest, durchläuft die AI drei Hauptschritte:

Schritt 1: Prompt-Verständnis

Die AI »liest« deinen Text und versucht zu verstehen, was du sehen möchtest. Das ist nicht trivial. »Eine Welle, die gegen Felsen schlägt« ist für Menschen sofort klar, aber für eine AI ist das ein Rätsel aus Wörtern, die sie in numerische Vektoren umwandeln muss.

Diese Vektoren sind wie mathematische Beschreibungen: Wasserbewegung, Kraft, Schaum, Lichtverhältnisse. Die AI hat gelernt, bestimmte Wort-Kombinationen in physikalische Szenen-Beschreibungen zu übersetzen.

Schritt 2: Frame-Vorhersage und Diffusion

Das ist der magische Teil. Die AI erstellt zunächst einen »Rahmen« — eine grobe Idee der ersten und letzten Frames deines Videos. Dann »denkt« sie sich die dazwischen liegenden Frames aus, indem sie Muster befolgt, die sie gelernt hat.

Das funktioniert mit etwas, das »diffusion« heißt. Stell dir vor, du gibst Farbtropfen in ein Glas Wasser. Die Farbe verteilt sich allmählich. Diffusion ist der Prozess, wie die Farbe sich bewegt. AI-Video funktioniert ähnlich: Sie startet mit Rauschen und »denoist« es Schritt für Schritt in ein kohärentes Video.

Schritt 3: Konsistenz und Optimierung

Nachdem die AI alle Frames generiert hat, überprüft sie (mit maschinellem Lernen), ob die Frames zusammenpassen. Sieht das Objekt in Frame 5 ähnlich aus wie in Frame 6? Ist die Beleuchtung konsistent? Ist die Bewegung glatt?

Falls nicht, »justiert« die AI nach. Das ist ein iterativer Prozess — sie macht mehrere Durchläufe, bis das Video gut genug ist.

Warum Temporal Coherence so schwer ist

Das ist das Herz des Problems. Bei einzelnen Bildern (wie in K03) ist es einfach: Du generierst ein Bild, es ist in sich selbst konsistent. Fertig.

Bei Video muss alles über Zeit hinweg konsistent sein. Das ist exponentiell schwerer. Denk an einen Punkt auf der Welle: In Frame 1 ist er hier, in Frame 2 muss er ein bisschen weiter sein, in Frame 3 noch ein bisschen weiter. Wenn die AI das falsch macht — springt der Punkt statt zu gleiten — sieht es sofort unnatürlich aus.

Die AI hat nur statistische Modelle, keine echte Physik-Simulation. Sie »ahnt«, wo der Punkt sein sollte, basierend auf Millionen Trainings-Beispielen. Manchmal irrt sie sich.

Die drei Rollen von AI-Video: Multiplikator, Ermöglicher, Grenzen

Zurück zu dem Konzept aus K01 und K02: Jedes AI-Medium hat drei Rollen.

Die Multiplikator-Rolle

Video-Generatoren sind Multiplikatoren für Effizienz und Kreativität. Du kannst in Minuten Videos erstellen, die früher Tage brauchten. Du kannst zehn Versionen machen, statt eine.

Das bedeutet: Mehr Experimentieren. Mehr Iterationen. Mehr Chancen, etwas Gutes zu finden.

Die Ermöglicher-Rolle

Video-Generatoren ermöglichen es Menschen ohne Ausrüstung, ohne Kamera, ohne Lichttechnik, Videos zu erstellen. Das demokratisiert einen Beruf, der früher exklusiv war.

Ein Designer in einer kleinen Stadt kann jetzt Videos für Marketingzwecke erstellen, die früher nur große Studios konnten. Das ist eine Befähigung.

Die Grenzen-Rolle

Aber es gibt klare Grenzen. Wenn du einen realistischen Film mit Menschen drehen möchtest, der physikalisch perfekt ist und subtile emotionale Nuancen zeigt — dafür brauchst du immer noch echte Drehs. Die AI kann das (noch) nicht.

Und das ist wichtig zu verstehen: Die Grenzen von heute sind nicht die Grenzen von morgen. Aber sie sind real jetzt. Ein guter Video-Ersteller mit AI kennt diese Grenzen und arbeitet innerhalb von ihnen.

Temporal Attention: Das Geheimnis der Bewegung

Es gibt ein Konzept in AI-Video, das »temporal attention« heißt. Das ist die Fähigkeit der AI, auf die zeitliche Struktur zu achten.

Wenn die AI Frame 5 generiert, schaut sie nicht nur auf Frame 4 und Frame 6. Sie schaut auf mehrere Frames voraus und zurück — um sicherzustellen, dass die Bewegung konsistent ist. Das ist wie ein Mensch, der nicht nur den jetzigen Moment sieht, sondern auch 1-2 Sekunden in die Zukunft und Vergangenheit »fühlt«.

Aber diese Aufmerksamkeit ist begrenzt. Eine AI kann 10 Frames Konsistenz halten, aber 100 Frames nicht. Das ist ein aktuelles Limit der Technologie.

Cross-Link: Vergleich mit K01 (Text) und K02 (Musik) und K03 (Bilder)

Erinnere dich an die Theorie-Lektionen aus den anderen Clustern:

  • K01-L03 (Text-Theorie): Text ist diskret und strukturiert. Die AI kann Wort-für-Wort vorhersagen, weil Sprache starke Muster hat. Lange Konsistenz ist einfach.
  • K02-L03 (Musik-Theorie): Musik hat Harmonie- und Takt-Regeln. Die AI kann diese folgen, aber subtile emotionale Variation ist schwer. Mittlere Konsistenz ist möglich.
  • K03-L03 (Bild-Theorie): Bilder sind statisch. Keine Temporal-Anforderungen. Die AI kann sehr gute Bilder generieren.
  • K04-L03 (Video-Theorie): Video kombiniert Bilder + Zeit. Die Zeit macht es exponentiell schwerer. Die AI kämpft mit Temporal Coherence.

Je mehr Dimensionen (Text hat Wort-Abfolge, Musik hat Zeit + Takt, Video hat Zeit + Raum + Physik), desto schwerer wird es für AI.

Ein Gedanke zum Mitnehmen

Wenn du verstehst, wie AI-Video funktioniert — dass es im Wesentlichen Millionen von Bildern interpoliert und dabei statistische Muster folgt — dann verstehst du auch, warum es manchmal wunderbar ist und manchmal komisch. Es ist kein Zufall, kein Geheimnis. Es ist Mathematik und Statistik.

Und wenn du die Mathematik verstehst, weißt du, wie man damit arbeitet. Du wirst bessere Prompts schreiben. Du wirst wissen, welche Szenen wahrscheinlich funktionieren und welche nicht. Das ist die Fähigkeit eines Profis.

Video-Generierung funktioniert durch Frame-Interpolation und diffusion. Die größte Herausforderung ist temporal coherence über längere Zeiträume — darum sind längere oder kompliziertere Videos schwerer zu generieren.

Stärken und Schwächen von AI-Video
Video mit klarer Absicht erstellen