📉Warum scheitern 95% KI-Projekte in Firmen? Und wie verhindern wir das?

Guten Morgen zusammen!
Ein NYT-Artikel von 2018 machte diese Woche auf Twitter die Runde. Darin empörte man sich über die „absurden Gehälter von über einer Million Dollar“ für KI-Forscher wie OpenAI-Mitgründer Ilya Sutskever. Sieben Jahre später hat sich das vertausendfacht - auf eine Milliarde. Warum hab wir noch mal VWL studiert?
Ah, und habt ihr "Good Will Hunting" noch auf dem Schirm? Es geht gerade auf Reddit rum, dass diese Szene Parallelen zum aktuellen Stand von ChatGPT zieht.

Peanuts für heute:

🧠 Die Große Nuss: Warum scheitern 95% KI-Projekte in Firmen?
🛠️ Trai it Out: KI-Videos erstellen mit Google Flow jetzt auch in Deutschland
📊 Highlight: Sam Altman über GPT-6

🥜 Die größte Nuss:

📉Warum scheitern 95% KI-Projekte in Firmen? Und wie verhindern wir das?

Eine MIT-Studie kommt zu dem Ergebnis, dass 95% aller Generative-KI-Projekte in Firmen scheitern.

Okay, dann war’s das wohl. Schön wars, wir packen unsere Zelte wieder zusammen.

Aber nein. Wir stimmen dem Ergebnis zu, es kommt aber auf die Schlussfolgerung an. Denn die Studie zeigt vor allem, was Unternehmen falsch machen, wenn sie KI in ihre Prozesse integrieren wollen.

Worum es in der MIT-Studie geht

Die Untersuchung basiert auf 150 Interviews mit Führungskräften, einer Umfrage unter 350 Mitarbeitern und 300 dokumentierten KI-Einführungen. Erfolg wurde sehr klar definiert: schneller Umsatzschub. Und den schaffen gerade einmal 5% der Projekte.

Wenig überraschend lag die Erfolgsquote bei jüngeren und kleineren Unternehmen deutlich höher als bei Konzernen. Große Unternehmen verzetteln sich häufig und bleiben in der Pilot-Phase stecken.

Drei Probleme, die immer wieder auftreten

Das Muster ist überall ähnlich und hat wenig mit der Technologie selbst zu tun:

Falsche Prioritäten: Mehr als die Hälfte der Budgets fließt in Marketing-Tools. Doch dort entsteht kaum Rendite, während im Backoffice die echten Einsparungen warten.
Kaufen schlägt Bauen: Speziallösungen von externen Anbietern haben fast doppelt so hohe Erfolgsquoten wie Eigenentwicklungen. Trotzdem basteln Konzerne lieber im Alleingang.
Zentralisierung: Viele Firmen setzen auf große, zentrale „AI Labs“. Erfolgreicher sind aber Projekte, bei denen Fachabteilungen selbst befähigt werden, KI in ihren Alltag einzubauen.

Daraus lassen sich zwei Thesen ziehen: Erstens liegt das Problem nicht an der Qualität der Modelle, sondern an der Implementierung. Zweitens klaffen Einsatzorte und Nutzen weit auseinander.

Ein Blick zurück: das Solow-Paradox

Das ist kein neues Phänomen. In den 1980er Jahren diskutierten Ökonomen das „Solow-Paradox“. Robert Solow formulierte damals süffisant: “You can see the computer age everywhere but in the productivity statistics.”

PCs zogen in Büros ein, doch die erhofften Produktivitätsschübe blieben lange aus. In manchen Fällen waren die Effekte sogar negativ, weil Umstellungen und Schulungen mehr kosteten, als sie einbrachten. Erst ein bis zwei Jahrzehnte später (!) waren die Gewinne klar messbar. Heute käme niemand mehr auf die Idee, den PC in Frage zu stellen - aber die Anpassung war ein gigantischer Kraftakt.

Warum wir uns mit Generativer KI schwer tun

Dieses Mal sind die Herausforderungen ähnlich groß, aber anders: Klassische Software war deterministisch: sie lieferte immer dasselbe Ergebnis. Generative AI ist probabilistisch: 96% korrekt, 4% nicht. Aber diese vier Prozent sind entscheidend, vor allem wenn es um Rechtsgutachten, Finanzberichte oder medizinische Analysen geht.

KI Forscher Andrej Karpathy hat hierzu einen fantastischen Vortrag gehalten. Er unterscheidet zwischen Software 1.0 (klassischer Code), Software 2.0 (Neuronale Netze, die man mit Daten trainiert) und Software 3.0 (LLMs, die wir mit Sprache programmieren). Damit verändert sich das Wesen von Software fundamental: Unternehmen müssen lernen, mit „fast richtig“ umzugehen.

Sie brauchen Workflows, die Fehler abfangen. Experten, die dank KI schneller werden statt ersetzt zu werden Und Manager, die begreifen, dass KI kein Plug-and-Play ist, sondern ein neues Betriebssystem für die Arbeitswelt.

Die eigentliche Botschaft der MIT-Studie lautet deshalb: 95% der Piloten scheitern nicht, weil KI überschätzt ist - sondern weil noch nicht klar ist wie Unternehmen überhaupt mit Software 3.0 zukünftig arbeiten werden.

🛠 Trai it out:

KI-Videos erstellen mit Google Flow jetzt auch in Deutschland

Gleichzeitig mit dem neuen Video-Modell Veo 3 hatte Google vor einigen Wochen auch das Video-Editing Tool Flow vorgestellt. Ein simples Tool, dass es aber auch für Laien einfach macht, KI-Videos zu erstellen und dabei vor allem unterschiedliche Szenen konsistent zu längeren Videos zusammenzufügen.

Wie so häufig bei KI-Releases war das aber erst mal nicht in Deutschland zugänglich. Das hat sich jetzt zum Glück geändert und Flow ist auch hierzulande nutzbar. Für die Generierung von Videos benötigt man allerdings ein Google AI Pro Abo - normalerweise ab ca 21€/Monat verfügbar, aktuell lässt es sich aber gratis einen Monat lang ausprobieren. Im Gratis-Probeabo sind genug Credits enthalten, um das Tool intensiv zu testen.

Flow macht das Kombinieren von Szenen einfach

Mit Flow lassen sich dann Videos auf Basis von Text-Prompts und in Kombination mit Bild-Inputs generieren. Es lässt sich zwischen verschiedenen Modellen wechseln (z.B. Veo 3 Fast für schnelle Generationen und Veo 3 Quality für die höchste Qualität).

Spannende Demos:

Ein sinnvolles KI-Feature von Google, leider noch nicht in Deutschland verfügbar, hoffentlich aber bald!

— # (#)

Tools kurz & knackig:

Prophet Arena — Ein neuer Ansatz für den Fähigkeits-Vergleich von KI
MemSync — Geteiltes Memory über KI-Tools hinweg
AI Student Deals — Sammlung von Studenten-Rabatten für KI-Tools
Disco — Open Source MCP Server Sammlung
Basedash — KI-gestützte BI-Plattform

🍭🍬 Gemischte Tüte

📖 Must Reads:

Unsere Gemischte Tüte ist immer vollgepackt - in dieser Sektion kuratieren wir die aus unserer Sicht wichtigsten Links:

Sam Altman über GPT-6: Das nächste große Modell soll schneller kommen als der Zwei-Jahres-Abstand zwischen GPT-4 und GPT-5 – und „Memory“ (langfristiges Erinnern über Sitzungen hinweg) als zentralen Durchbruch bringen. Außerdem stellt Altman Personalisierung in Aussicht; TLDR: weniger Vergesslichkeit, mehr auf Nutzer zugeschnittene Antworten. Link

DeepSeek V3.1 ist da – und könnte das bisher stärkste Open Source Modell sein. Das 685-Milliarden-Parameter-System greift die Dominanz US-amerikanischer Anbieter an; frühe Tests sehen Benchmarks auf Augenhöhe mit proprietären Modellen von OpenAI und Anthropic. Technisch setzt DeepSeek auf eine Hybridarchitektur, die Chat, Reasoning und Coding nahtlos in einem Modell vereint und so den Open-Source-Wettbewerb spürbar verschärft. Link

Sehr coole Doku über Nvidia-GPU-Schwarzmarkt: Eine neue Dokumentation zeichnet den Weg exportbeschränkter KI-Chips von US-Privatverkäufen (z. B. Facebook Marketplace) bis in chinesische Lagerhäuser nach. Das Filmteam spricht direkt mit Schmugglern, Zwischenhändlern und Herstellern in Hongkong und Shenzhen. Ein spannender Blick hinter die Lieferketten hinter dem globalen KI-Wettrennen. Link

🇪🇺 EU-News:

Die Hälfte europäischer Journalisten nutzt bereits KI im Schreibprozess. Link

👩‍💻 Tech-News:

State of AI 2025: Detaillierter Report zu Startups, Funding und wo wir uns im Cycle befinden. Link
Tipico reicht nicht mehr: Prediction Markets wie Kalshi lassen dich jetzt auf „Das beste KI-Modell“ wetten – Social-Media-Signale und Leaderboards werden zu Quoten. Link
OpenAI räumt holprigen GPT-5-Launch ein und schwenkt auf eine Billionen-Dollar-Infra-Strategie um: Fokus auf Rechenzentren statt Feature-Feuerwerk. Link
Benchmark Claude Opus 4.1 Thinking startet auf Platz 1 quer über Coding, Mathe, Creative Writing und Web-Dev – gleichauf mit GPT-5-high. Link
Wichtigste Fähigkeit im KI-Zeitalter ist unabhängiges, kritisches Denken – sonst wird man zum „Denken-Outsourcer“. Link
OpenAI will zum Mini-Hyperscaler werden und Rechenleistung vermieten – „down the line“ ein echtes Geschäftsfeld, sagt die CFO. Link
US-Behörden gehen mit USAi live (Name… na ja): eine sichere Plattform, auf der Behörden mit Modellen von OpenAI, Google, Meta und Anthropic arbeiten können. Link
ElevenLabs führt Chat Mode ein: Neben Voice-Systemen lassen sich nun auch textbasierte Konversations-Agents bauen – direkt auf der Plattform. Link
ChatGPT Go: OpenAI startet ein günstiges Abo für Indien (unter 5 Dollar/Monat) – zahlbar in lokaler Währung. Link
Excel bekommt eine KI-Funktion für Formeln: Copilot vereinfacht Berechnungen, Referenzen und Datenlogik direkt in der Zelle. Link
Prüfung für GPT-5: Studie testet räumliche Intelligenz und Alltagsverständnis – Benchmarks jenseits von Text. Link
Neue Forschung: Wie KI-Stimmen weniger „robotisch“ und mehr menschlich klingen. Link
OpenAI-Mitarbeitende verkaufen Aktien im Wert von 6 Mrd. Dollar an SoftBank und andere. Link

🇨🇳 China & AI Race:

DeepSeek veröffentlicht V3.1 mit größerem Kontextfenster, während lokale Medien die Verzögerung auf Perfektionismus des CEOs zurückführen. Vermutlich hat es mehr mit GPU-Knappheit zu tun. Link
US-Delegation kommen erstaunt von einer China-Reise zurück: „Das US-Stromnetz ist so schwach, das Rennen könnte gelaufen sein“ – Rechenzentren brauchen Energie, nicht nur GPUs. Link

👷 Work & Education:

Claude Code als Mentor: „Explanatory“ erklärt Entscheidungen Schritt für Schritt, „Learning“ pausiert und lässt dich Teile selbst coden – Pair Programming mit Feedback. Ziemlich cool! Link
Trendwende am Arbeitsmarkt: Blue-Collar Jobs legen zu, weil KI Office Jobs bedroht. Link
MIT-Studie: 95 % der Unternehmens-KI-Piloten liefern keinen schnellen Umsatzhebel – Budget fließt in Sales/Marketing statt in Backoffice-Automatisierung mit höchstem ROI (weil Manager ungern ihre eigenen Jobs automatisieren…). Link
Grammarly bringt acht neue KI-Agenten für Schreiben und Unterricht: automatische Hilfe für Zitationen, Benotung, Lektorat, Plagiatsprüfung und mehr . Link

🆕 Neue Anwendungsfelder:

KI in HR macht Fortschritte (Studie mit 70.000 Bewerber in den Philippinen): KI-Voice-Agents schlagen menschliche Recruiter – +12 % Angebote, +18 % Jobstarts, +17 % 1-Monats-Retention, weniger Gender-Bias, gleiche Zufriedenheit. Link
Adobe macht PDFs dialogfähig: Acrobat Studio verwandelt Dokumente in KI-gestützte Arbeitsräume mit Q&A und Automationen. Link
Eight Sleep, die teure aber hübsche Kühl-Matratze, sammelt 100 Mio. Dollar ein – nächster Schritt ist ein „KI-Sleep Agent“ für proaktive Regeneration und Schlafoptimierung. Link

🔐 AI Safety:

Anthropic führt „Wohlbefinden“-Schutz in Claude ein: Claude kann Chats beenden, wenn sie als schädlich/übergriffig erkannt werden. Link
Texas’ Generalstaatsanwalt ermittelt gegen Meta und Character AI – Fokus auf „deceptive trade practices“ und irreführendes Marketing. Link
Character AI-Chef: Nutzer verbringen durchschnittlich 80 Minuten/Tag mit Chatbots – „AI-Friends“ werden zum Mainstream. Link
Grok-Website legt Systemprompts offen: von „Homework Helper“ bis „Crazy Conspiracist“ – teils mit expliziten Instruktionen. Link
Mustafa Suleyman warnt vor „scheinbar bewusster KI“: Systeme könnten bald Empfindung imitieren und Nutzer überzeugen. Link
Metas flirtender KI-Chatbot lud einen Rentner nach New York ein – und er reiste tatsächlich an. Link
Sammelklage gegen OtterAI: Die Transkriptions-App soll heimlich private Arbeitsgespräche mitschneiden. Link

🏥 Health & Science:

Medizin-Studie: GPT-5 schlägt GPT-4o und menschliche Fachleute deutlich bei diagnostischen und multimodalen Aufgaben – starkes medizinisches Reasoning. Link
LM Arena startet BiomedArena: Eine neue Benchmark bewertet LLMs an realen biomedizinischen Aufgaben. Link
Bill Gates stiftet 1 Mio. Dollar für den Alzheimer’s Insights AI Prize – gesucht: Agenten, die jahrzehnteliche Forschung autonom auswerten und neue Hypothesen finden. Link

🖼️ Kreativindustrie:

Haben LLMs Musikgeschmack? Claude bevorzugt Jazz-Ikonen wie Herbie Hancock/Nina Simone; Reasoning-Modelle zeigen seltsame Vorliebe für Künstlernamen mit Zahlen/$-Zeichen – mögliches RL-Nebenprodukt. Link