AI Peanuts
Posts
Stehen KI Video Modelle vor dem großen Durchbruch?

Stehen KI Video Modelle vor dem großen Durchbruch?

Lukas Sam Schreiber, Robbie Bouschery & Tim Kleikamp
25. Jun • Lesezeit: 11 Minuten

Hi Freunde! Wir haben in den letzten Wochen viele beeindruckende Demos zum Thema KI-Videos gesehen - mehr dazu in der heutigen Ausgabe:

Peanuts für heute:

🎥 Stehen KI Video Modelle vor dem großen Durchbruch?
🇨🇳 Das Silicon Valley hat Angst vor chinesischen Spionen
🛠️ Claude Sonnet 3.5 kann sehr gut programmieren

🥜 Die größte Nuss:

🎥 Stehen KI Video Modelle vor dem großen Durchbruch?

Es ist noch gar nicht so lange her, da waren KI-Text-zu-Bild Programme lächerlich schlecht. Vor mehr als 3 Jahren haben wir in einem Vorgänger dieses Newsletters das erste Mal über OpenAI’s DALL-E geschrieben. Damals war ein “Brot-Pinguin” schon State of the Art.

Diese Brot-Pinguine waren vor 3 Jahren “gute” Outputs von Text-zu-Bild KIs

Doch spätestens, als auch ChatGPT so richtig in’s Rollen kam, ging es auch bei KI-generierten Bildern schnell. Fast schon wöchentlich konnte man die Fortschritte der verschiedenen Modelle bestaunen - und vor allem waren diese Tools dank Open Source auf einmal für jeden verfügbar. Lange noch war die richtige Darstellung von Händen ein Problem, aber auch das scheint größtenteils überwunden. Und so können selbst geübte Blicke aktuelle KI-generierte Bilder häufig nicht mehr als solche identifizieren.

Eine ähnliche Entwicklung beobachten wir gerade beim Thema Video. Einfache Text-zu-Video Modelle gibt es schon seit einiger Zeit, die Qualität der Outputs war allerdings häufig unbrauchbar. Im Februar diesen Jahres verblüffte OpenAI dann mit der Vorstellung ihres Video-Modells Sora. Das kann zusammenhängende Videosequenzen erzeugen, in denen die Physik zumindest auf den ersten Blick realistisch funktioniert.
Nur: Bisher blieb es bei der Demo, selbst ausprobieren kann man Sora noch nicht. Und wenn man sich z.B. das Musikvideo von Washed Out anschaut, das mit Sora erstellt (und auch an dieser Stelle schon ein mal gefeatured wurde), so sieht man klar, wo die Grenzen von Sora aktuell liegen: Als Kreativ-Tool geeignet, als Ersatz einer echten Kamera aber sicher noch nicht.

Sora steht aber lange nicht alleine dar, und immer mehr Tools sind auch nicht nur schöne Demos, sondern sind heute schon nutzbar. Ein kleiner Überblick:

Sora — Das oben erwähnte Modell von OpenAI, noch allerdings nur in einer geschlossenen Beta und nicht frei verfügbar.

Pika — Frei verfügbar und auch die Premium-Version gibt’s schon für $10 im Monat. Besonders gut darin, Bilder zu animieren. Kann aber noch viel mehr, z.B. automatisch Sound Effekte generieren und einfügen.

Stable Diffusion Video — Open Source, basiert auf dem beliebten Text-zu-Bild Modell. Über Umwege in anderen Tools frei verfügbar, oder für Entwickler einbindbar.

Veo — Das neuste Video-Modell von Google. Erzeugt beeindruckende photorealistische Sequenzen, kann allerdings auch noch nicht (ohne VPN) in Europa ausprobiert werden.

Kling — Ein Video Modell einer chinesischen Firma. Die Demos sind sehr beeindruckend, aber es ist noch nicht öffentlich zugänglich.

Runway GEN-3 — Eines der neusten Modelle mit sehr(!) beeindruckenden Demo Videos. GEN-3 ist zwar noch nicht für alle verfügbar, die auch schon gute GEN-2 allerdings schon.

Wie man sieht arbeiten und forschen gerade viele Firmen und Research Labs gleichzeitig am Thema KI-Video. Besonders interessiert daran ist natürlich die Filmbranche. Sowohl OpenAI, als auch Runway haben zumindest offengelegt, dass sie mit diversen Filmstudios zusammenarbeiten, u.a. um für diese eigene Versionen ihrer Modelle zu erzeugen.
Und die Tools sind auch schon im Live-Einsatz. Eines unserer Lieblingsbeispiele ist der deutsche Videokünstler Nicolas Neubert, der z.B. für den DJ Kream extrem coole Ultra-Widescreen Videos für die Bühnenshow erzeugt hat - mit Runway.

Videos zu erzeugen ist natürlich um einiges komplexer, als einfach nur ein paar Bilder aneinanderzureihen. Und daher ist klar - auch wenn die aktuellen Demos häufig sehr beeindruckend sind, bis wir ganze Hollywood-Filme schauen können, die rein KI-generiert sind, wird es wohl noch eine Weile dauern. Aber: Schon heute sind KI-Tools ein extrem mächtiges neues Werkzeug für kreative Künstler und Anwender in allen möglichen Bereichen.

🛠️ Trai it out:

Claude Sonnet 3.5 — Wer Claude noch nicht kennt, es ist quasi ein ChatGPT Konkurrent der Firma Anthropic. Die ist, genau wie OpenAI, mit viel Geld ausgestattet und hat ein Top-Team. U.a. ist dort seit Neustem Instagram-Mitgründer Mike Krieger CPO.

Top ist auch das neue Update ihres Modells “Sonnet” - in der Version 3.5. Das schlägt in den meisten Tests sogar GPT 4o. Besonders beeindruckend sind die Coding-Fähigkeiten - und das beste - Claude kann die Programme, die es schreibt auch direkt ausführen (nennt sich bei Claude “Artifacts”). Probiert’s einfach mal aus - Inspiration dazu gibt’s u.a. hier.

Weitere Neue Tools, Updates & Demos:

Otto — Ein tabellenbasierter KI-Assistent, mal eine neue Form der UX.
Magnific AI Relight — Ein neues Feature des beliebten KI-Upscaling Tools kann Szenen neu “beleuchten”
ReviewLegal — Hilft beim Verstehen von Verträgen und sonstigen rechtlichen Themen
Revid — Shortform Videos mit KI im Handumdrehen erstellen

🍭🍬 Gemischte Tüte

🇪🇺 EU-News:

Apples neu angekündigte KI-Funktionen werden aufgrund regulatorischer Bedenken nicht im EU-Markt eingeführt. Niemand weiß, wie die EU den DMA hier anwenden wird, einschließlich der EU, daher bittet Apple um Anleitung und signalisiert eine Verzögerung, bis sie diese erhält. Link

👩‍💻 Tech-News:

Diese Studie legt nahe, dass wir möglicherweise 'Halluzinationen' in LLMs erkennen können, wenn auch nicht beheben. Zu wissen, wann sie 'falsch' liegen (bei Fragen, bei denen das relevant ist), wäre eine grundlegende Veränderung der Fähigkeiten von LLMs. Link
Amazon erweitert generative KI-gestützte Produktlisten nach Europa. Link
Dell baut eine KI-Fabrik mit NVIDIA-AI-GPUs, um Grok für xAI und Elon Musk zu trainieren. Link
Forscher beschreiben, wie man erkennt, ob ChatGPT konfabuliert. Link
Ein Blick ins Innere des KI-Booms in San Francisco. Link
Top-KI-Unternehmen wollen ihre Chatbots deutlich ‘lustiger’ machen. Link
KI hat bereits große Auswirkungen auf globale Energiesysteme. Link
Bloomberg hat ein PR-Profil über DeepMind gemacht, das sich mit Google Brain zusammenschließt und von Wissenschaftsprojekten zu Produkten übergeht. Link
Tim O'Reilly über Urheberrechte, Attribution und moralische Rechte für generative KI-Trainingsdaten. Link

👷 Work:

Eine große neue Studie über die möglichen Auswirkungen von generativer KI auf die Beschäftigung. TLDR: Derzeit könnten 1,8 % der Arbeitsplätze über die Hälfte ihrer Aufgaben von LLMs mit einfachen Schnittstellen und allgemeinem Training betroffen sein. Berücksichtigt man die 'wahrscheinlichen' zukünftigen Fähigkeiten von LLMs, springt dieser Anteil auf etwas über 46 % der Jobs (es geht nur darum, dass Aufgaben in 46% der Jobs betroffen sind – nicht um Verdrängung der Jobs selbst). Link
KI-Agenten: Hype vs. Realität. Link
Nützliche Bain-Umfrage über den Einsatz von generativer KI in Unternehmen. Link

🆕 Neue Anwendungsfelder:

Eine Analyse der militärischen KI Chinas. Link
Diese KI setzt Passanten einen Hut auf. Kein Scherz. Link

🔐 Cybersecurity:

FT berichtet, dass große Silicon-Valley-Tech-Firmen und VCs Mitarbeiter auf Verbindungen zu chinesischen Geheimdiensten überprüfen. KI ist nicht der einzige Grund dafür, aber einer der größeren. Link

🖼️ Kreativindustrie:

Jetzt hat Perplexity ein Plagiatsproblem. Perplexity ist eine LLM-gestützte 'Antwortmaschine', die versucht, dir die Antwort basierend auf dem Scannen des Webs zu geben und dir dabei einige Links zu Quellen anzeigt. Es gibt großes Aufsehen unter Verlegern diese Woche, dass es offenbar umfassende Beschreibungen von Inhalten gibt, die eigentlich hinter Paywalls stehen. In diesem Fall könnte Perplexity jedoch Material verwendet haben, das es ausdrücklich nicht nutzen durfte. Link
BBC-Bericht über die Einstellungen der Verbraucher zur Nutzung von generativer KI in den Medien. Link
Spotify über 'künstliches Streaming'. Link
Roblox über generative KI. Link
Interessantes Video über den Zustand Hollywoods und die wahrscheinlichen Auswirkungen von generativer KI. 'Bisher galt das Mooresche Gesetz für die Distribution, aber jetzt wird es auch für die Produktion gelten.' Link

🧂 Salty Memes:

Wir wollen uns verbessern! Wie hat dir diese Ausgabe gefallen? Welche Themen wünschst du dir für die Zukunft mehr?

Bis Freitag!