• AI Peanuts
  • Posts
  • KI-Benchmarks: Warum "Besser" bei KI-Modellen nicht immer besser ist

KI-Benchmarks: Warum "Besser" bei KI-Modellen nicht immer besser ist

Heute geht es um das beste Modell evVvVeeer! Oder viel eher… wie kann man dieses Urteil überhaupt treffen? Es geht also um Benchmarks und Messbarkeit.
Legen wir sofort los!

Peanuts für heute:

  • 🚀 KI-Benchmarks: Warum "Besser" bei KI-Modellen nicht immer besser ist

  • 📉 Verlangsamt sich der Fortschritt bei OpenAI?

  • 🛠️ Spiky ist ein KI Sales-Trainer

🥜 Die größte Nuss:

🚀 KI-Benchmarks: Warum "Besser" bei KI-Modellen nicht immer besser ist

Eine Frage bekommen wir oft gestellt: Welches KI-Modell ist das Beste? Wie so oft lautet die Antwort: Es kommt darauf an.

Stell dir vor, jemand fragt dich nach deiner Meinung zum neuesten Modell von OpenAI oder Anthropic. Hast du schon ChatGPT-4o ausprobiert? Oder mit dem neuen Haiku? Ist es wirklich besser? Und Gemini pro 1.5?

Klar, manchmal gibt es offensichtliche Neuerungen wie Multimodalität oder Websuche. Aber wenn ein (K)Influencer sagt, das Modell sei "besser" geworden, was heißt das eigentlich? Hier kommen die Benchmarks ins Spiel. Doch was bedeutet "20 % besser" in einem Dutzend verschiedener Tests? Und dann ist da noch die Debatte darüber, wie sinnvoll diese Benchmarks überhaupt sind, besonders wenn die Antworten bereits in den Trainingsdaten stecken könnten.

Denn wir alle kennen Headlines aus den letzten Jahren wie: “KI schneidet im Mediziner Test besser ab, als 90% der Studierenden”. Sind die Modelle jetzt “schlauer” als Mediziner? Nein, denn die KI kannte die Testantworten bereits.

Eine interessante Methode, Modelle heute zu testen, ist ihnen Aufgaben zu stellen, die sie eigentlich "können" sollten, aber trotzdem nicht erfolgreich lösen. Oft sind das logische oder mathematische Probleme, die etwas knifflig formuliert sind, und somit prüfen, ob das Modell wirklich versteht oder nur statistisch passende Antworten gibt.

Hier setzt FrontierMath an, ein neuer Benchmark für fortgeschrittene mathematische Fähigkeiten von KI. Gemeinsam mit über 60 führenden Mathematikern wurden Hunderte origineller und besonders anspruchsvoller mathematischer Probleme entwickelt, von denen die aktuell besten KI-Systeme weniger als 2 % lösen können.

Bisherige Mathematik-Benchmarks zeigen oft KI-Modelle, die über 90 % erreichen – häufig, weil die Lösungen bereits in den Trainingsdaten enthalten sind. FrontierMath setzt die Messlatte deutlich höher: Alle Probleme sind neu und unveröffentlicht. Top-Mathematiker wie Fields-Medaillengewinner Terence Tao beschreiben diese Aufgaben als extrem herausfordernd und betonen, dass sie tiefgehendes Fachwissen erfordern.

Das bringt uns zum Moravec'schen Paradox. Vor über 30 Jahren stellte Hans Moravec fest, dass das, was für Menschen einfach ist, für Computer oft extrem schwer ist – und umgekehrt.

Computer sind zum Beispiel Meister im Schachspielen, haben aber Schwierigkeiten mit alltäglichen Aufgaben wie dem Binden von Schuhen oder dem Falten eines Hemdes, die für uns selbstverständlich sind.

Ein ähnliches Phänomen zeigt sich bei großen Sprachmodellen (LLMs). Sie können komplexe, bekannte Probleme angehen, wenn man ihnen die Aufgabenstellung klar vorgibt, aber für die einfachsten Jobs würden wir sie nicht einsetzen. Sie tun sich schwer damit, lange, eigenständige Problemlösungsprozesse zu strukturieren – etwas, das für uns Menschen ganz natürlich ist. Unsere Einschätzung der Qualität eines Sprachmodells wird also stark davon beeinflusst, wie wir selbst diese Aufgaben wahrnehmen.

Genau deshalb sind Benchmarks wie FrontierMath so wertvoll. Am spannendsten fanden wir aber Terence Taos Aussage, “dass diese Benchmark für ein paar Jahre ausreichen sollte”. Auch er glaubt an einen rasanten Anstieg der Fähigkeiten KI Modelle.

AI Peanuts Workbook

Vollgepackt mit KI-Wissen, Tools & Tutorials!

Du hast angefangen, dich tiefer mit dem Thema KI zu beschäftigen und willst den nächsten Schritt machen? Dann ist unser offizielles AI Peanuts Workbook genau das Richtige für dich!

Das Workbook ist kein klassisches “Buch”, sondern ein praxisorientiertes, interaktives digitales Dokument. Gegliedert in 3 Teile:

Theorie — Der Textbuch-Teil des Workbooks, in dem wir das Thema KI und seine technischen Grundlagen erklären.
Praxis — Eine Reihe von praktischen Tutorials, mit denen du lernst, KI praktisch anzuwenden (z.B.: ChatGPT Masterprompts, HeyGen, NotebookLM, Midjourney…)
Daten  Datenbanken mit den besten KI-Tools und den spannendsten Firmen im KI-Umfeld.

🛠️ Trai it out:

Spiky — Dieses Tool zeigt auf eindrucksvolle Weise, wie man KI dazu nutzen kann, den Menschen besser zu machen. In diesem Fall im Thema Sales. Spiky ist ein KI Tool, dass alle möglichen Parameter in Sales Calls tracken und Feedbacken kann. Denn sind wir ehrlich: So gut KI auch wird, es wird noch einige Zeit dauern, bis wirklich realistisch ist, dass die KI Sales einfach alleine übernimmt. Menschen wollen eben (noch) mit anderen Menschen interagieren.

Aber KI als Coach nutzen - das geht heute schon sehr gut!

Weitere Neue Tools, Updates & Demos:

  • Univerbal Sprachen lernen mit KI-Unterstützung

  • Lamatic — KI Agenten mit No-Code bauen

  • Sona — KI-Meeting Notizen & Insights

🍭🍬 Gemischte Tüte

👩‍💻 Tech-News:

  • OpenAI muss umdenken – das neue GPT-Modell, intern als „Orion“ bekannt, zeigt laut Insidern von OpenAI nur marginale Verbesserungen im Vergleich zum Vorgänger. Besonders in Bereichen wie Programmierung hinkt es hinterher. Vielleicht reicht es doch nicht, einfach mehr Nvidia-Grafikkarten auf das Problem zu werfen? Link 

  • Sam Altman von OpenAI räumt offen ein, dass das Unternehmen mit Engpässen bei Rechenressourcen und Daten konfrontiert ist, was zukünftige Model-Updates verzögern könnte. Link 

  • Noch mal Sam Altman: Er glaubt trotzdem, dass künstliche allgemeine Intelligenz (AGI) in 2025 erreicht wird. Dies widerspricht Berichten über langsame Fortschritte bei der Entwicklung von Sprachmodellen und Herausforderungen bei der Skalierung. Altman bleibt überzeugt, dass keine wissenschaftlichen Durchbrüche mehr notwendig sind, sondern nur ingenieurstechnische Lösungen. Link 

  • Perplexity’s Wahlberichterstattung war ein voller Erfolg, ohne größere technische Schwierigkeiten. Nicht zuletzt deshalb steht Perplexity kurz davor, weitere 500 Mio. USD zu sammeln, was die Bewertung des KI-Startups auf 9 Mrd. USD steigern würde, trotz anhaltender rechtlicher Streitigkeiten wegen Content-Nutzung. Link 

  • Apples Smart-Glasses: Statt einer überteuerten Vision Pro-Brille könnte Apple an einer günstigeren Alternative arbeiten. Intern laufen Untersuchungen über das Potenzial von AR-Brillen, die Siri-Kommandos ausführen, Videos aufnehmen und Anrufe tätigen können – quasi als Antwort auf Metas Ray-Ban-Brillen. Link 

  • Baidu bringt eine neue AR-Brille auf den Markt, die mit KI ausgestattet ist. Sie soll Metas Ray-Ban-Anwärter ordentlich Konkurrenz machen und Baidus eigenes KI-Modell "Ernie" nutzen, um Sprachinteraktionen und mehr zu ermöglichen. Link 

  • Taiwans Halbleiterproduktion boomt dank KI-Nachfrage. Trotz gekürzter Verkäufe nach China erreicht der Wert der Chipproduktion ein Rekordhoch von 165 Milliarden Dollar im Jahr 2024. Link 

  • Microsoft hat ein Patent für ein neues System eingereicht, das KI-Halluzinationen reduzieren soll – die KI überprüft ihre Antworten gegen reale Daten, bevor sie dem Nutzer antwortet. Link 

👷 Work & Future of Work:

  • BCG hat Unternehmen zum Einsatz generativer KI befragt: Zahlreiche Pilotprojekte, aber bislang kaum Einfluss auf zentrale Geschäftsbereiche – was auch nicht überraschend ist Link

  • Falls ihr ein Beispiel braucht, was durch KI bereits verdrängt wurde: Chegg ist ein Unternehmen, das seit Jahren Schülern in den USA bei den Hausaufgaben hilft. Das Unternehmen verlor 500.000 Abonnenten und fast 99 % seines Börsenwerts seit dem Start von ChatGPT. Offenbar wenden sich viele Schüler nun lieber an GPT für Hausaufgabenhilfe. Link 

  • Microsoft beginnt, die KI-Funktionen von Copilot in reguläre Microsoft 365-Abos zu integrieren, was möglicherweise das Ende des teureren Copilot-Pro-Modells bedeutet. Link 

  • Jemand hat ein Mini-AI-Cluster aus vier Mac Minis gebastelt. Diese kleine, kompakte Lösung kann erstaunlicherweise sogar mit Open-Source-KIs wie NVIDIAs Nemotron 70B umgehen. Ist das die Zukunft des KI-Setups für zu Hause? Link 

🆕 Neue Anwendungsfelder:

  • Ein humanoider Roboter namens Ai-Da hat Geschichte geschrieben: Sein Porträt des Computerpioniers Alan Turing wurde bei Sotheby’s für 1,3 Mio. USD versteigert. Damit übertraf es die Erwartungen um das Zehnfache. Ai-Da nutzt Kameras in ihren Augen und Roboterarme zur Erstellung der Bilder – und eröffnet eine Diskussion über die Zukunft von Kunst und Technologie. Link 

  • ByteDance hat X-Portrait 2 vorgestellt, eine KI, die aus einfachen Fotos lebendige Animationen erstellt. Die neue Version überträgt komplexe Gesichtsausdrücke mit verblüffender Genauigkeit und könnte schon bald in TikTok integrierbar sein. Link 

  • Wendy’s nutzt KI, um seinen Lieferkettenprozess zu automatisieren, und kann nun Engpässe schneller erkennen und vermeiden. Link 

  • MIT-Forscher haben ein KI-System namens "LucidSim" vorgestellt, das Hunde-Roboter in virtuellen Welten trainiert. Mithilfe von physikalischen Simulationen und KI-generierten Szenen lernt der Roboter, Aufgaben wie Hindernisse zu umgehen und einem Ball hinterherzujagen – ohne je eine reale Umgebung gesehen zu haben. Link 

🔐 Cybersecurity & AI Safety:

  • Eine neue Studie zeigt, dass KI-generierte Profilfotos auf X (früher Twitter) in koordinierten Netzwerken genutzt werden, um politisches und finanzielles Material zu verbreiten. Link 

  • Das US-Handelsministerium hat den Chip-Hersteller TSMC angewiesen, den Export fortschrittlicher Chips für KI-Anwendungen nach China ab sofort einzustellen. Link 

  • Letzte Woche setzte sich Anthropic in einem offenen Brief für die geschlossene Entwicklung von KI ein. Nun folgt diese Woche das Kontra von Microsoft, gemeinsam mit Andreessen Horowitz. Meta hat ihr eigenes Kontra verfasst, und alle stehen klar auf der Seite der Open-Source-Entwicklung. Jedes Unternehmen argumentiert dabei in Richtung der Strategie, die ihm selbst am meisten Vorteile bringt.. Link

🖼️ Kreativindustrie:

  • Must Listen!!!! Suno V4 liefert das bisher beste AI-generierte Musikstück. Dieses Video wurde von Suno als Ankündigung auf Twitter geteilt und ist zu hundert Prozent KI-generiert. Unfassbar. Link 

  • OpenAI kann durchatmen. Ein Gerichtsurteil erklärt, dass die Klage von Newsunternehmen wegen einer angeblichen Verletzung von Urheberrechten durch das Training von ChatGPT nicht gerechtfertigt sei. Es gäbe nicht genug Schaden, um die Klage zu stützen. Link 

  • Die Beatles haben KI-Geschichte geschrieben: Ihr mit KI verbesserter Song "Now and Then" ist der erste KI-unterstützte Titel, der für zwei Grammys nominiert wurde. Der Song, der 2023 erschienen ist, wurde mithilfe von KI-Technologie für "Stem Separation" erstellt, die John Lennons Stimme aus einer alten Demo entkoppelte. Link

🧂 Salty Memes:

Du hast Fragen, Anmerkungen oder brauchst unsere Hilfe?
Schreib uns einfach an:
[email protected]

Willkommen!

Hat dir das ein Freund oder eine Kollegin geschickt? Melde dich an und erhalte 2x Woche deine eigene Ausgabe mit den wichtigsten KI News direkt in dein Postfach.

Hilf uns dabei, besser zu werden! Was war schlecht? Was war gut? Wie fandest Du diese Ausgabe von AI Peanuts?

Login oder Abonnieren um an umfragen teilzunehmen.

Bis Freitag!