Apple zerlegt den KI-Hype?!

Mann, oh Mann. Es ist wieder viel passiert. Es scheint, als ob der Hype um KI in eine neue Phase übergeht. Das könnte eine Reaktion auf die vielen CEOs sein, die auf den KI-Trend setzen und sagen, dass in ein paar Jahren alle Jobs verschwinden werden. Immer mehr Experten schreiben in Blogs, und jetzt gibt es auch ein großes Paper von Apple, das sagt, dass große Sprachmodelle (LLMs) nicht zu einer allgemeinen Künstlichen Intelligenz (AGI) führen und die Arbeit dauerhaft verändern werden. Darum geht es in der heutigen großen Nuss.

Was sonst? Ilya Sutskever, das Brain hinter ChatGPT, hat einen Vortrag gehalten. OpenAI hat einen Bericht über die Nutzung von KI in der Spionage veröffentlicht, und Meta steht wohl kurz davor, Milliarden in Scale AI zu investieren.

Peanuts für heute:

  • 🍎 Die Große Nuss: Apple zerlegt den KI-Hype?!

  • 🛠️ Trai it Out: Hyperrealistisches Text-to-Speech mit Eleven Labs v3

  • 🥷 Highlight: OpenAI veröffentlich Threat-Report zu Nutzung von KI in Spionage

🥜 Die größte Nuss:

🍎 Apple zerlegt den KI-Hype?!

Während die ganze Welt von "denkenden" KI-Modellen schwärmt, veröffentlicht Apple eine Studie mit dem brutalen Titel "The Illusion of Thinking".

Das Fazit: Aktuelle KI-Systeme täuschen nur vor zu denken – und kollabieren bei echten Herausforderungen komplett.

Apple sagt in diesem Paper der gesamten KI-Industrie: "Ihr verkauft eine Illusion." Besonders brisant, weil Apple selbst seit Jahren mit Siri kämpft und ihre eigenen KI-Ambitionen immer wieder verschieben muss.

Was Apple in seiner Studie berichtet

Apple testete die neueste Generation von KI-Systemen – sogenannte Large Reasoning Models (LRMs), die durch längere "Denkpausen" bessere Ergebnisse liefern. Apple sagt, je komplexer die Aufgabe wird, desto schlechter schneiden die Modelle ab.

Noch schlimmer: Schon kleine Änderungen – eine andere Formulierung oder irrelevante Zusatzinformationen – bringen die KI aus dem Konzept. Und Apple folgert daraus: Die Modelle "denken" überhaupt nicht, sondern erkennen nur Muster aus ihrem Training wieder.

Solange eine Aufgabe den gelernten Mustern ähnelt, funktioniert das beeindruckend. Sobald etwas Neues oder Unerwartetes kommt, bricht das System zusammen. Laut der Apple-Studie basiert der aktuelle "Reasoning"-Hype auf oberflächlichen Benchmark-Ergebnissen, nicht auf echtem Denken.

Apple’s Vorgehen in der Studie war es, die LRMs Spiele und Puzzles wie “Tower of Hanoi” lösen zu lassen, u.a. weil man hier den Komplexitätsgrad sehr einfach variieren kann. Das Lösen dieser Spiele wurde dann One-Shot versucht, d.h. die Modelle hatten einen Versuch. Apple untersuchte dann das Ergebnis und die offengelegten Reasoning-Tokens, also sozusagen, die laufenden Gedanken des Modells.

Kritik an Apples Studiendesign

Doch genau dieses Studiendesign trifft auch auf Kritik. Einerseits wird gesagt, dass nicht ersichtlich ist, warum ausgerechnet solche Puzzle-Spiele einen besseren Rückschluss auf die allgemeinen Reasoning-Fähigkeiten haben sollten, als z.B. eine Code- oder Mathe-Aufgabe. Zudem wird kritisiert, dass der Ansatz den Modellen nur einen Versuch zu geben und keine Tools zu benutzen nicht die tatsächlichen aktuellen Fähigkeiten der Modelle widerspiegelt. Und es wird kritisiert, dass die daraus resultierenden Rückschlüsse auf die Nützlichkeit der Modelle nur sehr begrenzt ist.

So geht es auch uns - gerade in unseren technischen Aufgaben empfinden wir die Reasoning-Fähigkeiten der Modelle als sehr hilfreich. Ja, wir sehen auch, dass das Reasoning im ersten Versuch oft auf Grenzen trifft, indem es z.B. beim Coding trotzdem triviale Bugs erzeugt. Aber die Modelle haben eben meistens nicht nur einen Versuch - gerade im Multi-Step Reasoning entsteht häufig erst der Wert im Output der Modelle.

Aber: Es mag durchaus sein, dass Apple mit seinen Erkenntnissen auf der richtigen Spur ist. Die Ableitung aus den Ergebnissen ist ja nicht unbedingt, dass die LLMs nicht nützlich sind, aber vielleicht eben, dass die aktuellen Ansätze klare Grenzen haben und eben nicht auf geradem Weg zur Superintelligenz führen, wie das von manch anderen Spielern behauptet wird.

Apples eigenes KI-Dilemma

Das Timing der Studie ist auf jeden Fall kein Zufall. Apple steckt selbst in einem KI-Dilemma. Siri 2.0 wurde bereits für 2024 angekündigt, dann verschoben. Die versprochenen "Apple Intelligence"-Features lassen auf sich warten.

Interne Quellen berichten von Problemen mit Legacy-Code und Architekturkonflikten. Während Google, OpenAI und Microsoft ihre KI-Systeme als "Reasoning Engines" vermarkten, rudert Apple zurück.

Der Druck vor der gestrigen WWDC-Konferenz war groß, doch auch dort waren die KI-relevanten Updates eher dünn.

Es könnte also zumindest in Apple’s strategischem Interesse sein, den AI Hype ein klein bisschen abzukühlen - was nicht bedeutet, dass an der Studie nichts dran ist.

Könnten LLMs das Ende von Apple bedeuten?

Die Sorge für Apple ist, dass LLMs das Betriebssystem komplett ersetzen. Wenn ChatGPT Reisen bucht, Uber ruft und Essen bestellt oder KI-Agenten ganze Workflows übernehmen - braucht es dann noch iPhone Apps und MacOS? Und was steht dem Konzern an potentieller Konkurrenz durch ihren eigenen ehemaligen Chef Designer Jony Ive bevor? Aber ist es noch sehr früh. Die meisten Menschen nutzen LLMs nur sporadisch, nicht täglich wie AI-Peanuts-Leser. 😉 

Apple hat Zeit, es richtig zu machen – genau wie Google mit seinen bestehenden Produkten. Noch ist völlig unklar, auf welcher Hardware wir in einigen Jahren mit KI interagieren werden. Und wer baut zumindest aktuell die schönste, energieeffizienteste und privateste Hardware? Genau das Unternehmen, das gerade den KI-Hype zerlegen will.

🛠️ Trai it out:

Hyperrealistisches Text-to-Speech mit Eleven Labs v3

Wir dachten ja schon fast das Thema realistische Spracherzeugung mit KI sei schon durchgespielt. Doch jetzt setzt das Startup Eleven Labs mit seinem neuen KI-Sprachmodell noch mal ordentlich einen drauf!

Denn mit v3 lässt sich Sprache jetzt mit der vollen Bandbreite an Emotionen generieren - mit Variation in Rythmus, Lautstärke, Intonation und sogar dem Erzeugen von Sprachlauten wie Lachen, Seufzen, Räuspern usw.

Eine Demo des neuen Modells gibt es hier. Dort lässt sich das auch mit eigenem Text ausprobieren. Viel muss dazu gar nicht erklärt werden - außer dass jegliche Instruktionen in eckigen Klammern ([]) nicht als Text, sondern als Anweisung oder Geräusch interpretiert werden. So lassen sich dann z.B. Dinge umsetzen wie:
[flüsternd] oder [lautes Lachen].

Das alles ist natürlich nicht bloße Spielerei - Eleven Labs lässt sich für eine riesige Vielzahl an Use Cases nutzen - einige davon stellen sie auf ihrer Website genauer dar - vom Übersetzen von Podcasts und Videos, über das Vertonen von Hörbüchern bis zum Sprachassistenten für’s Schach Lernen.

Spannende Demos:

Tools kurz & knackig:

  • PrettyPrompt — Chrome Extension verbessert deine Prompts

  • HeyGen — Neues Update für die beliebten KI-Video Avatare

  • You.com ARI — Advanced Research, laut eigener Aussage besser als ChatGPT

🍭🍬 Gemischte Tüte

📖 Must Reads:

Unsere Gemischte Tüte ist immer vollgepackt - in dieser neuen Sektion kuratieren wir zukünftig die aus unserer Sicht wichtigsten 3 Links:

OpenAI veröffentlicht einen brisanten Threat Report: Laut diesem Paper von OpenAI nutzen Länder wie China, Russland, Iran und Nordkorea Sprachmodelle für Cyberangriffe und Social Engineering. ChatGPT wurde auch für Spionage, Fake News und digitale Täuschung genutzt. Link

Ilya Sutskever spannende Rede zu KI-Entwicklung: Vor ein paar Tagen hat der wohl wichtigste Entwickler von ChatGPT an seiner alten Uni eine Rede gehalten. Interessanter Gegenpunkt zur Apple-Studie: Er fordert die Zuhörer auf, die Veränderungen durch KI ernst zu nehmen und sich nicht vor den Auswirkungen auf Arbeit und Gesellschaft zu verschließen. Link

Datenschutz bei OpenAI: Ein US-Bundesgericht hat OpenAI dazu verpflichtet, ALLE ChatGPT-Nutzerdaten dauerhaft zu speichern – auch gelöschte oder temporäre Chatverläufe. Hintergrund ist die Klage der New York Times. OpenAI bezeichnet das als massiven Eingriff in den Datenschutz der Nutzer. Link 

🇪🇺 EU-News:

  • Audi setzt KI in über 100 Produktionsprojekten ein – z. B. bei der Qualitätsprüfung. Zeitersparnis bis zu 1 Minute pro Fahrzeug, bis zu 20 % Effizienzplus. Link 

👩‍💻 Tech-News:

  • Anthropic kappt Zugang für das Coding-Tool Windsurf – ausgerechnet wegen Gerüchten, OpenAI wolle es kaufen. Nicht gerade ein Signal von API-Stabilität. Link

  • Google startet „Portraits“ – ein KI-Experiment, bei dem User mit einem digitalen Experten-Avatar interagieren können. Link 

  • OpenAI hat ein Update für den Advanced Voice Mode – mit natürlicherer Sprache und besseren Übersetzungen. Link 

  • Meta steht wohl kurz davor, Milliarden in Scale AI zu investieren – die Plattform hilft beim Labeln riesiger Datensätze und wird zunehmend zur Schlüsseltechnologie für KI-Training. Link 

  • Claude bekommt auch ein Langzeitgedächtnis: Wenn der Input zu lang wird, springt automatisch ein „Retrieval Mode“ an, der frühere Sitzungen wieder aufgreift. Link 

  • Andrej Karpathy: Video wird zur neuen Benutzeroberfläche, weil es deutlich mehr Bandbreite als Text oder Sprache hat. KI-Modelle können damit schneller und vielseitiger interagieren – und lernen dabei direkt aus dem Feedback der Community. Interessanter Take! Link 

  • DeepSeek veröffentlicht laufend neue Forschungsarbeiten – eine kuratierte Sammlung findest du hier, wenn du tiefer ins Thema willst. Link 

  • NotebookLM von Google erlaubt jetzt das Teilen deiner KI-Notizbücher – andere können dann deine Lernunterlagen oder KI-generierte Podcasts nutzen. Link 

  • Anthropic hat laut Reuters seine jährlichen Einnahmen seit Dezember 2024 von 1 auf 3 Milliarden Dollar verdreifacht – vor allem durch Nachfrage nach Code-KI in Unternehmen. Link

🇨🇳 China & AI Race:

  • Anthropic launcht Claude Gov – speziell für US-Behörden, Militär und Geheimdienste. Fokus: Planung, Einsatzunterstützung, Lagebewertung. Link

  • Apple will in China angeblich KI-Modelle von Alibaba für „Apple Intelligence“ einsetzen – doch das Projekt steckt wegen Trumps Handelskrieg im Genehmigungsprozess fest. Link

  • Trump gegen Musk: Die politische Fehde wirkt sich jetzt direkt auf Forschung und Tech aus. Förderungen wackeln, Einfuhrzölle steigen, vielen KI-Labs fehlt bald das Personal. Link 

  • X (ehemals Twitter) verbietet jetzt offiziell, seine Inhalte fürs KI-Training zu nutzen. Damit will Elon vermeidlich die Konkurrenz zu xAI bremsen. Link

👷 Work & Education:

  • Neue Case Studies zeigen, wie zehn Teams intern Claude Code produktiv einsetzen – von Datenanalyse bis DevOps. Link

  • Künftig sollen alle Studierenden KI im Unterricht an der Ohio University einsetzen – fächerübergreifend. Link

🆕 Neue Anwendungsfelder:

  • Roll-up-Firmen setzen jetzt auf KI: Sie kaufen personalintensive Dienstleister wie Kanzleien oder Arztpraxen, rationalisieren mit KI, verdoppeln Margen – und skalieren dann weiter. So entsteht eine neue, stille KI-Infrastrukturwelle im Mittelstand. Link 

  • Ein KI-System hat anhand von Schriftbildern und Radiokarbondaten gezeigt: Teile der Schriftrollen vom Toten Meer sind bis zu 100 Jahre älter als gedacht – einige rund 2.300 Jahre alt. Link 

  • Neue Studie zeigt, warum Video-KI zeitliche Zusammenhänge nicht wie Menschen erkennt. Stichwort: Time Blindness. Link 

  • Star-Köche wie Grant Achatz nutzen ChatGPT, um komplette Menüs zu entwickeln – inklusive fiktiver KI-Küchenchefs. Link 

🔐 AI Safety:

  • OpenAIs Policy-Chefin Joanne Jang erklärt, wie das Team mit der emotionalen Bindung von Nutzern zu ChatGPT umgeht. Ziel sei ein empathischer, aber neutraler KI-Charakter – ohne Gefühle, Absichten oder Backstory. Link 

  • Die Trump-Administration reorganisiert das US AI Safety Institute – künftig heißt es Center for AI Standards and Innovation. Link 

🏥 Health & Science:

  • FutureHouse veröffentlicht „ether0“, ein neues Open-Source-KI-Modell speziell für chemisches Denken – outperformt GPT-4 auf wissenschaftlichen Benchmarks. Link 

  • Forscher kombinieren DNA-Modelle mit Sprachmodellen – das Projekt „BioReason“ schlägt damit Benchmarks im Biotech-Bereich um 15 %. Link 

  • Neue App von IBM & Roche warnt Diabetes-Patienten 30 Minuten vor gefährlicher Unterzuckerung – mit KI-basierter Glukose-Vorhersage bis zu zwei Stunden im Voraus. Link 

🖼️ Kreativindustrie:

  • Forbes: KI wird zur dominanten Kraft im 455-Milliarden-Dollar-Gamingmarkt – von Spielwelten über NPCs bis Monetarisierung. Link

  • DeepMind-Chef Demis Hassabis spricht mit Regisseur Darren Aronofsky über KI-Tools für die Filmproduktion. Link

  • Odyssey stellt ein KI-Modell vor, das 3D-Welten in Echtzeit streamt. Keine Game Engine – nur Video-Frames alle 40 ms. Nutzer können sich live darin bewegen. Kostet aktuell rund 1–2 $ pro Nutzerstunde. Link

  • Mehr Infos zu dem Musikindustrie KI-Deal: Universal, Warner und Sony verhandeln mit KI-Musik-Startups wie Udio und Suno über Lizenzdeals – wohl um milliardenschwere Klagen beizulegen. Im Gespräch: Lizenzgebühren und Anteile, um Künstler fair zu vergüten. Link

🧂 Salty Memes:

Du hast Fragen, Anmerkungen oder brauchst unsere Hilfe?
Schreib uns einfach an:
[email protected]

Willkommen!

Hat dir das ein Freund oder eine Kollegin geschickt? Melde dich an und erhalte 2x Woche deine eigene Ausgabe mit den wichtigsten KI News direkt in dein Postfach.

Hilf uns dabei, besser zu werden! Was war schlecht? Was war gut? Wie fandest Du diese Ausgabe von AI Peanuts?

Login oder Abonnieren um an umfragen teilzunehmen.

Bis Freitag!