KI, News

News: Midjourney erstellt jetzt Videos – Was die neue Funktion bedeutet

22. Juni 2025 Mario Wormuth Noch keine Kommentare

Die Welt der künstlichen Intelligenz entwickelt sich rasant weiter, und kaum ein Name ist im Bereich der KI-Bildgenerierung so präsent wie Midjourney. Bisher bekannt für seine Fähigkeit, atemberaubende und oft surreale Bilder aus Texteingaben zu erschaffen, wagt das Unternehmen nun den nächsten großen Schritt: die Generierung von Videos. Am 18. Juni 2025 war es soweit – Midjourney veröffentlichte offiziell sein erstes Videogenerierungsmodell, genannt V1. Diese Ankündigung hat in der Kreativ- und Tech-Szene für erhebliches Aufsehen gesorgt, denn sie signalisiert nicht nur eine Erweiterung der Funktionalität einer beliebten Plattform, sondern auch einen wichtigen Trend in der Entwicklung von KI-gestützten Werkzeugen. Von statischen Momentaufnahmen hin zu dynamischen Sequenzen, Midjourney öffnet damit ein neues Kapitel. Die Fähigkeit, die einzigartige künstlerische Ästhetik, für die Midjourney bekannt ist, nun auch in bewegten Bildern zu erleben, verspricht spannende neue Möglichkeiten für Künstler, Designer, Filmemacher und Content-Ersteller. Doch was genau steckt hinter dieser neuen Funktion? Wie funktioniert sie, welche kreativen Potenziale birgt sie und wo liegen die aktuellen Grenzen? Dieser Beitrag beleuchtet die Details der neuen Video-Funktion von Midjourney und ordnet sie in den Kontext der aktuellen KI-Entwicklungen ein.

Das Wichtigste auf einen Blick

Midjourney, einer der führenden KI-Bildgeneratoren, hat sein Portfolio um eine Videofunktion erweitert. Mit dem am 18. Juni 2025 veröffentlichten V1-Modell können Nutzer nun ihre mit Midjourney erstellten oder extern hochgeladene Bilder animieren. Das System basiert auf einem “Bild-zu-Video”-Workflow und erzeugt standardmäßig fünf Sekunden lange Clips in 480p-Auflösung, die auf bis zu 21 Sekunden verlängert werden können. Es gibt automatische und manuelle Animationsmodi sowie Einstellungen für geringe oder hohe Bewegungsintensität. Das Feature ist ab dem Basic-Plan für 10 US-Dollar monatlich verfügbar, wobei Videos preislich etwa dem Äquivalent von “einem Bild pro Sekunde Video” entsprechen. Im Gegensatz zu Konkurrenten wie Sora oder Veo 3, die auf Text-zu-Video setzen, bleibt Midjourney seinem visuell-ersten Ansatz treu. Die langfristige Vision des Unternehmens zielt auf Echtzeit-Open-World-Simulationen ab.

Veröffentlichung: Midjourney V1 Videomodell am 18. Juni 2025.
Funktionsweise: Bild-zu-Video über “Animate”-Button.
Video-Spezifikationen: Standard 5 Sek., max. 21 Sek., 480p Auflösung.
Animationsmodi: Automatisch und Manuell; Low und High Motion.
Preisgestaltung: Ab $10/Monat (Basic-Plan), Videos ca. 8x teurer als Bilder.
Verfügbarkeit: Nur über Midjourney-Website, nicht Discord.
Vergleich: Fokus auf Bild-zu-Video, unterscheidet sich von Text-zu-Video Konkurrenten.

Vom Standbild zum Bewegtbild: Midjourney stellt seine Video-Funktion vor

Die Nachricht schlug ein wie eine kleine Bombe in der Community der KI-Enthusiasten und Kreativschaffenden: Midjourney, der Dienst, der für seine Fähigkeit bekannt ist, aus einfachen Textbeschreibungen oft verblüffend detaillierte und künstlerisch anspruchsvolle Bilder zu generieren, kann jetzt auch Videos. Mit der Einführung des V1-Videomodells am 18. Juni 2025 betritt das Unternehmen ein neues, spannendes Feld. Dieser Schritt ist mehr als nur eine technische Erweiterung; er ist ein klares Signal, dass Midjourney seine Position als Innovationsführer im Bereich der generativen KI festigen und ausbauen möchte. Bisher lag der Fokus klar auf der Erzeugung einzelner, statischer Kunstwerke. Die neue Funktion ermöglicht es nun, diese Bilder mit Leben zu erfüllen, ihnen Bewegung und eine zeitliche Dimension zu verleihen. Man stelle sich vor, die oft surrealen und detailreichen Welten, die Midjourney erschaffen kann, setzen sich plötzlich in Bewegung. Das ist eine ziemlich aufregende Vorstellung, nicht wahr? Der Kern der Neuerung ist ein “Bild-zu-Video”-Workflow, der es Nutzern erlaubt, entweder ein bereits mit Midjourney generiertes Bild als Ausgangspunkt zu nehmen oder ein externes Bild hochzuladen und dieses dann über einen neuen “Animate”-Button zum Leben zu erwecken. Dieser Ansatz unterscheidet Midjourney von einigen anderen Playern im Feld, die primär auf Text-zu-Video setzen.

Kernmerkmale des Midjourney V1 Videomodells

Das V1-Modell bringt eine Reihe spezifischer Eigenschaften mit, die den Einstieg in die Videoerstellung mit Midjourney definieren:

Bild-zu-Video-Ansatz: Nutzer animieren bestehende Bilder (Midjourney-generiert oder extern) anstatt Videos direkt aus Text zu generieren.
“Animate”-Button: Die zentrale Schaltfläche, um den Animationsprozess für ein ausgewähltes Bild zu starten.
Standard-Videolänge: Jede Generierung erzeugt initial vier Videoclips von jeweils fünf Sekunden Länge.
Maximale Videolänge: Die Clips können in vier-Sekunden-Schritten bis zu viermal verlängert werden, was eine maximale Länge von 21 Sekunden pro Video ermöglicht.
Auflösung: Die Videos werden aktuell in einer Auflösung von 480p ausgegeben.
Verfügbarkeit: Die Videofunktion ist ausschließlich über die Midjourney-Website zugänglich, nicht über den bisherigen Hauptkanal Discord.
Zugangsberechtigung: Alle zahlenden Abonnenten haben ab sofort Zugriff auf die neue Funktion.

Siehe auch: Mit Flux Infografiken erstellen lassen: So setzt du deine Daten visuell um

Die Einführung der Videofunktion ist ein logischer, wenn auch ambitionierter Schritt für Midjourney. Das Unternehmen hat sich einen Namen gemacht, indem es die Grenzen dessen, was mit KI-generierter Kunst möglich ist, immer wieder verschoben hat. Die charakteristische Ästhetik, die oft als “Midjourney-Stil” bezeichnet wird, hat viele Anhänger gefunden. Diese Ästhetik nun auch in Bewegtbildern zu sehen, eröffnet eine Fülle neuer kreativer Ausdrucksformen. Es geht nicht nur darum, ein Bild ein wenig wackeln zu lassen. Vielmehr besteht die Hoffnung, dass die KI in der Lage ist, die Essenz eines Bildes zu erfassen und sinnvolle, ansprechende Bewegungen zu generieren. Der Fokus auf einen visuell-ersten Ansatz, bei dem das Bild im Mittelpunkt steht, bleibt dabei erhalten und unterscheidet Midjourney von Diensten, die versuchen, komplexe Szenen direkt aus Textbeschreibungen zu animieren. Dieser Schritt könnte auch als Antwort auf die wachsende Konkurrenz im Bereich der KI-Videogenerierung gesehen werden, wobei Midjourney hier klar seinen eigenen Weg geht und auf seinen Stärken im Bereich der Bildkomposition und -ästhetik aufbaut.

So funktioniert die Video-Erstellung in Midjourney: Ein erster Einblick

Die Implementierung der Videoerstellung in Midjourney wurde so gestaltet, dass sie für bestehende Nutzer relativ intuitiv zugänglich ist, auch wenn sie sich von der reinen Bildgenerierung natürlich unterscheidet. Der Prozess beginnt, wie bei Midjourney üblich, mit einem Bild. Dieses kann entweder ein zuvor mit Midjourney selbst erstelltes Kunstwerk sein oder ein Bild, das der Nutzer von extern hochlädt. Ist das gewünschte Ausgangsbild ausgewählt, tritt der neue “Animate”-Button in Aktion. Ein Klick darauf initiiert den Prozess der Videogenerierung. Im Hintergrund analysiert das V1-Modell das Bild und versucht, plausible Bewegungen und Veränderungen über die Zeit zu interpolieren. Standardmäßig liefert das System als Ergebnis vier verschiedene Videooptionen, jede mit einer Länge von fünf Sekunden. Diese initiale Kürze mag überraschen, aber sie erlaubt es dem System, verschiedene Interpretationen der Animation anzubieten, aus denen der Nutzer wählen kann. Die Auflösung ist derzeit auf 480p begrenzt, was für schnelle Vorschauen oder Social-Media-Snippets ausreichen mag, für professionellere Anwendungen aber sicherlich eine Hürde darstellt. Es ist ein erster Schritt, und man kann davon ausgehen, dass hier in Zukunft Verbesserungen folgen werden. Die Bedienung ist also, zumindest für den Start, erfreulich unkompliziert gehalten.

Feature	Beschreibung
Automatischer Modus	Das System analysiert das Bild und generiert automatisch einen passenden Bewegungsablauf. Ideal für schnelle Ergebnisse oder wenn man sich von der KI überraschen lassen möchte.
Manueller Modus	Nutzer können spezifische Bewegungsanweisungen eingeben (z.B. “Kamera schwenkt nach links”, “Zoom auf das zentrale Objekt”). Dies erlaubt mehr Kontrolle über das Endergebnis.
Low Motion	Diese Einstellung erzeugt subtile Bewegungen. Sie eignet sich besonders für atmosphärische Szenen, Porträts oder Landschaften, bei denen die Kamera eher statisch bleibt und nur feine Animationen gewünscht sind.
High Motion	Hier wird eine höhere Bewegungsintensität angewendet. Diese Option ist passend für dynamischere Szenen, die eine bewegte Kamera oder stärkere Bewegungen des Motivs erfordern, beispielsweise für kurze Action-Sequenzen.
Verlängerungsoption	Die initialen 5-Sekunden-Clips können in 4-Sekunden-Schritten bis zu viermal verlängert werden. So lässt sich eine maximale Videolänge von 21 Sekunden (5 + 4*4) erreichen.

Abseits der reinen Bedienung sind die technischen Spezifikationen und die Preisgestaltung wichtige Aspekte. Die Begrenzung auf 480p ist ein Kompromiss, vermutlich um die Rechenlast und die Generierungszeiten in einem akzeptablen Rahmen zu halten, besonders in dieser frühen Phase des Dienstes. Die maximale Länge von 21 Sekunden ist ebenfalls eine Einschränkung, die den Anwendungsbereich vorerst auf kurze Clips, Loops oder animierte Akzente beschränkt. Preislich ist die Videogenerierung deutlich intensiver als die Bilderstellung: Die Kosten sollen etwa achtmal höher liegen als für ein Einzelbild, was ungefähr “einem Bild pro Sekunde Video” entspricht. Das bedeutet, ein 5-Sekunden-Video verbraucht so viele Ressourcen wie etwa fünf Bilder. Die Funktion ist ab dem Basic-Plan für 10 US-Dollar monatlich verfügbar. Für Pro- und Mega-Abonnenten gibt es zudem die Möglichkeit, den unbegrenzten Relax-Modus auch für die Videogenerierung zu nutzen, was bei intensiverer Nutzung ein großer Vorteil sein kann. Es ist klar, dass Midjourney hier noch am Anfang steht und die Parameter sich mit der Weiterentwicklung des Modells sicherlich noch verändern werden.

Siehe auch: Unterschied FLUX.1 Kontext [max] und [pro]: Einfach erklärt, welche Version für dich richtig ist

Welche kreativen Türen öffnen sich durch Midjourney-Videos?

Die Einführung von Videofunktionen in Midjourney ist mehr als nur ein technisches Upgrade; sie ist ein potenzieller Katalysator für eine neue Welle kreativer Projekte. Künstler, Designer, Musiker, Social-Media-Manager und sogar kleine Unternehmen könnten von dieser Entwicklung profitieren. Stellen wir uns vor: Ein Künstler, der bisher beeindruckende statische Fantasy-Landschaften mit Midjourney erschaffen hat, kann diese nun mit sanften Kamerabewegungen, waberndem Nebel oder subtilen Charakteranimationen zum Leben erwecken. Albumcover für Musiker könnten plötzlich dynamische Elemente enthalten, die die Stimmung der Musik visuell unterstreichen. Für Content Creator eröffnen sich Möglichkeiten, einzigartige Intros, Outros oder visuelle Untermalungen für ihre Videos zu gestalten, die sich deutlich vom Stock-Material abheben. Auch im Bereich des Storyboarding oder der Visualisierung von Konzepten könnten schnell erste bewegte Eindrücke generiert werden. Die charakteristische, oft leicht surreale und detailverliebte Ästhetik von Midjourney-Bildern nun in Bewegung zu sehen, hat einen ganz eigenen Reiz. Es geht darum, die bereits vorhandene Stärke – die Erzeugung visuell einzigartiger Bilder – auf eine neue Ebene zu heben und ihr eine zeitliche Komponente hinzuzufügen. Das Potenzial, atmosphärische Loops für Websites, Präsentationen oder als digitale Kunst zu schaffen, ist ebenfalls enorm.

Vorteile

Erweckt die einzigartigen statischen Bilder von Midjourney zum Leben.
Die bekannte künstlerische Midjourney-Ästhetik ist nun auch in Bewegtbild verfügbar.
Relativ einfacher Einstieg für Personen, die bereits mit Midjourney vertraut sind.
Eröffnet neue Ausdrucksmöglichkeiten für eine Vielzahl kreativer Projekte.
Ermöglicht die schnelle Erstellung von kurzen Animations-Prototypen oder Mood-Videos.
Potenzial für die Generierung einzigartiger visueller Effekte und Stimmungen.
Der Bild-zu-Video-Ansatz erlaubt es, gezielt bestehende Kunstwerke zu animieren.

Nachteile

Aktuell stark begrenzte Videolänge (maximal 21 Sekunden).
Vergleichsweise niedrige Auflösung (480p), die für viele professionelle Anwendungen nicht ausreicht.
Derzeit kein integrierter Audio-Support.
Deutlich höhere Kosten für die Generierung im Vergleich zu Einzelbildern.
Die Qualität und Art der Animation ist stark von der Qualität und dem Inhalt des Ausgangsbildes abhängig.
Die Kontrolle über die Animation ist (noch) nicht so fein granular wie bei spezialisierter Animationssoftware.
Mögliche Inkonsistenzen oder unerwünschte Artefakte in den generierten Bewegungen.

Die entscheidende Frage wird sein, wie gut das V1-Modell die Intention des Nutzers oder die implizite Dynamik eines Bildes in überzeugende Bewegung umsetzen kann. Der “Bild-zu-Video”-Ansatz hat hier sowohl Vor- als auch Nachteile. Einerseits gibt er dem Nutzer eine klare visuelle Grundlage und Kontrolle über den Startpunkt. Andererseits ist die KI darauf angewiesen, aus einem einzelnen Frame eine plausible zeitliche Entwicklung zu extrapolieren, was bei komplexen Szenen oder gewünschten spezifischen Handlungen eine Herausforderung darstellen kann. Es ist weniger ein Werkzeug, um komplexe Narrative von Grund auf zu erstellen, sondern eher eines, um bestehende visuelle Ideen zu erweitern und ihnen eine neue Dimension zu verleihen. Die Stärke könnte also weniger im Erzählen von Geschichten als im Erzeugen von Stimmungen, Texturen und kurzen, eindrucksvollen visuellen Momenten liegen. Die Community wird sicherlich schnell herausfinden, wo die Sweet Spots dieser neuen Funktion liegen und welche Art von Bildern sich besonders gut für eine Animation eignen. Es ist ein Experimentierfeld, das gerade erst eröffnet wurde.

Siehe auch: News: Eleven Labs v3 ist gerade erschienen – Das steckt in der neuen KI-Stimme

Midjourney Videos: Aktuelle Möglichkeiten und ein Blick in die Zukunft

Das V1-Modell von Midjourney für die Videogenerierung markiert einen spannenden, aber auch frühen Punkt in der Entwicklung dieser Technologie innerhalb der Plattform. Aktuell bietet es eine faszinierende Möglichkeit, statische Bilder mit der charakteristischen Midjourney-Ästhetik in kurze, animierte Clips zu verwandeln. Die Stärken liegen im Bild-zu-Video-Workflow, der es Nutzern erlaubt, ihre bereits erstellten oder favorisierten Bilder als Grundlage zu verwenden, und in den verschiedenen Modi zur Steuerung der Animation (automatisch/manuell, low/high motion). Die maximale Länge von 21 Sekunden und die Auflösung von 480p setzen jedoch klare Grenzen für den unmittelbaren Einsatz in hochauflösenden oder längeren Produktionen. Im direkten Vergleich mit anderen aufkommenden KI-Video-Plattformen wie Google Veo 3 oder OpenAI Sora positioniert sich Midjourney bewusst anders. Während Sora und Veo 3 primär auf Text-zu-Video-Generierung setzen und oft höhere Auflösungen oder längere Clips anstreben, konzentriert sich Midjourney auf seinen etablierten visuell-ersten Ansatz und die künstlerische Qualität seiner Ergebnisse. Es geht weniger darum, fotorealistische Szenen aus dem Nichts zu erschaffen, als vielmehr darum, die künstlerische Vision, die bereits in einem Bild steckt, zu erweitern.

Midjourney V1 im Vergleich zur Konkurrenz

Midjourney V1 betritt den Markt der KI-Videogenerierung mit einem spezifischen Ansatz, der sich von einigen Hauptkonkurrenten unterscheidet. Die Stärke liegt in der Erweiterung der bekannten Bildgenerierungsfähigkeiten.

Grundlegender Ansatz: Midjourney V1 setzt auf Bild-zu-Video, während Modelle wie OpenAI Sora und Google Veo 3 primär Text-zu-Video nutzen.
Maximale Videolänge: Midjourney V1 bietet bis zu 21 Sekunden. Sora liegt bei etwa 20 Sekunden, Veo 3 (Stand der Information) bei ca. 8 Sekunden, zielt aber auf längere Sequenzen ab.
Auflösung: Midjourney V1 startet mit 480p. Sora erreicht 1080p, und Google Veo 3 zielt auf bis zu 4K.
Audio-Unterstützung: Midjourney V1 und Sora bieten aktuell keinen direkten Audio-Support, während Google Veo 3 dies als Feature nennt.
Kreativer Fokus: Midjourney V1 betont die Erweiterung der eigenen künstlerischen Ästhetik auf Bewegtbild. Sora und Veo 3 zielen oft auf eine breitere Palette von Stilen, inklusive Realismus, direkt aus Textprompts.
Einstiegspreis: Midjourney ist mit $10/Monat (Basic Plan) für den Zugang zur Videofunktion vergleichsweise günstig, während andere Dienste (sofern Preise bekannt) eher bei $20/Monat starten.

Die spannendste Frage ist jedoch, wohin die Reise für Midjourney geht. CEO David Holz hat eine ambitionierte langfristige Vision skizziert: Er beschreibt das V1-Videomodell als einen ersten Schritt in Richtung des ultimativen Ziels, KI-Modelle zu entwickeln, die “Echtzeit-Open-World-Simulationen” ermöglichen. Das klingt nach Science-Fiction, deutet aber darauf hin, dass die aktuelle Videofunktion nur ein Baustein in einem viel größeren Plan ist. Diese Vision geht weit über die Generierung kurzer Clips hinaus und zielt auf die Schaffung interaktiver, dynamischer 3D-Welten ab, die in Echtzeit von der KI generiert und modifiziert werden könnten. Bis dahin ist es natürlich noch ein weiter Weg. Kurz- bis mittelfristig ist zu erwarten, dass Midjourney das V1-Modell iterativ verbessern wird. Höhere Auflösungen, längere Videoclips, eine feinere Kontrolle über die Animation und vielleicht sogar eine Integration von Audio-Elementen stehen wahrscheinlich auf der Roadmap. Auch die Serverkapazitäten werden je nach Nutzung und Akzeptanz der Funktion sicherlich angepasst. Die Midjourney-Community, bekannt für ihr experimentierfreudiges Feedback, wird dabei eine wichtige Rolle spielen, die zukünftige Entwicklung mitzugestalten. Es bleibt also extrem spannend zu beobachten, wie sich diese Technologie weiterentwickelt und welche kreativen Möglichkeiten sich daraus noch ergeben werden.

Mario Wormuth

Seit 2014 bin ich im Bereich Webseiten, E-Commerce, Marketing und SEO tätig. Meine Expertise liegt insbesondere in der Keyword-Recherche, Themen-Clusterung, strategischen Optimierung zur Verbesserung der Online-Sichtbarkeit sowie der CTA-Optimierung. Nach meiner Ausbildung zum IT-Systemkaufmann sammelte ich Erfahrung in der Onlineshop-Optimierung und bei der Entwicklung von Marktplatz-Strategien (u.a. Amazon). Später leitete ich eine E-Commerce-Abteilung und vertiefte mein Wissen durch den Aufbau eigener Blogs zu SEO und Content-Strategien. Aktuell verantworte ich den SEO-Aufbau bei www.opal-schmiede.com mit nachweislicher Steigerung von Traffic und Umsatz. Parallel dazu bin ich bei RYMHART, einem Anbieter hochwertiger, nachhaltiger Strickwaren, für das Marketing, die Projektplanung und die strategische Ausrichtung mitverantwortlich.

News: Midjourney erstellt jetzt Videos – Was die neue Funktion bedeutet

Das Wichtigste auf einen Blick

Vom Standbild zum Bewegtbild: Midjourney stellt seine Video-Funktion vor

Kernmerkmale des Midjourney V1 Videomodells

So funktioniert die Video-Erstellung in Midjourney: Ein erster Einblick

Welche kreativen Türen öffnen sich durch Midjourney-Videos?

Vorteile

Nachteile

Midjourney Videos: Aktuelle Möglichkeiten und ein Blick in die Zukunft

Midjourney V1 im Vergleich zur Konkurrenz

Mario Wormuth

Schreibe einen Kommentar Antworten abbrechen

Rechtliches

Spannendes

Empfehlungen

Contact sales

News: Midjourney erstellt jetzt Videos – Was die neue Funktion bedeutet

Das Wichtigste auf einen Blick

Vom Standbild zum Bewegtbild: Midjourney stellt seine Video-Funktion vor

Kernmerkmale des Midjourney V1 Videomodells

So funktioniert die Video-Erstellung in Midjourney: Ein erster Einblick

Welche kreativen Türen öffnen sich durch Midjourney-Videos?

Vorteile

Nachteile

Midjourney Videos: Aktuelle Möglichkeiten und ein Blick in die Zukunft

Midjourney V1 im Vergleich zur Konkurrenz

Mario Wormuth

Schreibe einen Kommentar Antworten abbrechen

Rechtliches

Spannendes

Empfehlungen