• AI Peanuts
  • Posts
  • OpenAI: Können LLMs eigenständig Geld verdienen? Der große Benchmark Guide

OpenAI: Können LLMs eigenständig Geld verdienen? Der große Benchmark Guide

Guten Morgen! Wer kennt noch den Humane AI Pin? Dieses revolutionäre kleine KI Gerät zum Anstecken, dass bald unsere iPhones obsolet machen sollte. Über 200 Mio USD hatte das ehemalige Apple Team eingesammelt. Und nun wurde das Unternehmen verkauft an…*checks notes*…HP, den Druckerhersteller. Es wird in Sachen KI Geräte also noch ein paar Jahre dauern.

In der Zwischenzeit hat OpenAI eine sehr spannende neue Benchmark veröffentlicht. Die schauen wir uns heute genauer an!

Peanuts für heute:

  • 🧠 OpenAI: Können LLMs eigenständig Geld verdienen? Der große Benchmark Guide

  • 🇪🇺 Mistral KI-Modell speziell für den Nahen Osten und Südasien auf den Markt

  • 🛠️ Sprechen statt Schreiben mit Superwhisper & co.

Anzeige

KI-Output: Fakten, Halluzinationen und Bias erkennen

Auch wenn KI-Tools beeindruckende Antworten liefern, ist es entscheidend, diese kritisch zu hinterfragen. Gerade bei komplexeren Fragestellungen bleibt der Mensch ein unverzichtbarer Teil des Prozesses.

Zwei wichtige Hinweise, worauf man achten sollte:

Plausible Falschinformationen: Bevor ein Chatbot zugibt, etwas nicht zu wissen, erstellt er oft eine scheinbar plausible, aber falsche Antwort. Besonders bei rechtlichen Details, Nennung von spezifischen Gesetzen oder Zitaten ist Vorsicht geboten – diese sollten stets überprüft werden.

Knowledge-Cutoff: KI-Modelle, die keinen Zugang zum Internet haben, basieren auf Daten bis zu einem bestimmten Zeitpunkt (Knowledge-Cutoff). Liegt dieser beispielsweise im Jahr 2023, kann das Modell keine Informationen über Ereignisse oder Entwicklungen liefern, die erst 2024 stattgefunden haben.

Wenn ihr KI-Tools in eurem Arbeitsalltag nutzt, solltet ihr wissen, worauf ihr bei der Überprüfung von Ergebnissen achten müsst. Eine hervorragende Einführung dazu bietet der Kurs Kritischer Blick auf KI-Ergebnisse von unserem Partner Herdt:

🥜 Die größte Nuss:

🚀 OpenAI: Können LLMs eigenständig Geld verdienen? Der große Benchmark Guide

Kaum ein Thema treibt die KI-Branche so um wie Benchmarks: diese wunderschönen Balkendiagramme, die uns bei jedem neuen Release sagen sollen, welches Modell denn jetzt das beste ist. Sie helfen uns dabei, das passende Modell für unsere Aufgaben auszuwählen – wer braucht Top-Coding-Fähigkeiten, wer muss hunderte Seiten von PDFs zusammenfassen?

Andererseits sind Benchmarks ein mächtiges Marketing-Tool für KI-Firmen: Sobald ein Modell einen Mathe-Test oder ein Wissensquiz mit 90 Prozent besteht, lässt sich das prima verkaufen: „Seht her, wir sind die neuen Benchmarksieger!“

Nun hat OpenAI vorgestern einen völlig neuen Ansatz für Benchmarks veröffentlicht, den wir unglaublich spannend finden und der für echte Problemlösungen wegweisend sein wird. Doch vorher ein kleiner Rückblick:

Wie MMLU, HumanEval & LLM Arena zum Goldstandard wurden

Seit dem Release von ChatGPT gab es eine regelrechte Flut neuer Benchmark-Tests:

  • MMLU (Massive Multitask Language Understanding): 15.000 Fragen aus 57 Disziplinen – lange Zeit der „Universaltest“ für allgemeines Fachwissen bei KI.

  • HumanEval: Ein von OpenAI veröffentlichter Code-Benchmark mit Python-Aufgaben. Modelle, die hier 80 oder 90 Prozent erreichen, galten schnell als „Coding-Wunder“.

  • LM Arena (Chatbot Arena): Kein fester Fragenkatalog; stattdessen stimmen Millionen von Usern live ab, welche KI-Antwort besser gefällt. Dieser Community-Vergleich wirkt sehr praxisnah, weil echte Nutzer direkt Feedback geben.

Gerade MMLU und HumanEval wurden intensiv genutzt, um Modelle miteinander zu vergleichen. Kaum ein Launch kam ohne die Schlagzeile aus: „Neues Modell XY hat 5 Prozent mehr erreicht als GPT-4.“

Die meisten Tests erweckten den Eindruck, die Modelle seien in Bereichen wie Medizin, Jura oder Coding schon besser als die meisten Menschen. Trotzdem zahlen wir aktuell noch 250 Euro die Stunde an unseren Anwalt (liebe Grüße!) – wie kann das sein?

Warum klassische Tests an Aussagekraft verlieren

Das liegt vor allem an der Struktur der Tests und ihrer zunehmenden Sättigung:

1. Datenlecks: Viele Testdatensätze kursieren offen im Netz – Modelle lernen sie einfach auswendig, statt sie wirklich zu verstehen.

2. Overfitting: Entwickler optimieren Modelle gezielt auf Benchmark-Scores, ähnlich wie Schüler, die nur für Prüfungen lernen, den Inhalt aber nicht wirklich verinnerlichen.

3. Isolierte Probleme: In der Praxis stolpern KI-Modelle über ganzheitliche Szenarien: Da gibt es keinen perfekt zugeschnittenen Code-Snippet, sondern Legacy-Projekte mit widersprüchlichen Anforderungen oder fehlerhafter Dokumentation.

Auch die Chatbot Arena spiegelt zwar echte Nutzerurteile wider, zeigt jedoch oft nur, wie Modelle auf Small Talk oder Alltagsfragen reagieren. Komplexe Projekt-Setups oder Expertendiskussionen werden dabei kaum erfasst.

Die neuen Tests: Humanity’s Last Exam

Um realistischere Herausforderungen zu stellen, sind in jüngster Zeit weitere Benchmarks entstanden. Eines davon trägt den etwas theatralischen Namen Humanity’s Last Exam: Tausende Expertenfragen aus über 100 Disziplinen, oft mit Bildern, Diagrammen und Fachtexten. So soll verhindert werden, dass Modelle bloß Standardfragen aus dem Training abrufen. Tatsächlich fallen Top-Modelle hier auf sehr niedrige Erfolgsquoten, auch weil die Antworten strikt geheim gehalten werden.

Und dann gibt es noch den (nicht ganz neuen) ARC Prize: knifflige Puzzle-Aufgaben, die kreatives Abstrahieren erfordern. Wer nur sehr gut Muster wiedererkennt, wird trotzdem scheitern, weil echte Denkleistung gefragt ist. Nun aber zu OpenAIs neuer Benchmark

OpenAIs SWE-Lancer: Upwork-Aufgaben als Praxis-Benchmark

Den bislang konsequentesten Schritt Richtung „echter Alltag“ ging nun OpenAI mit SWE-Lancer.

Die Idee: keine künstlich generierten Aufgaben mehr, sondern 1.400 reale Projekte von Upwork, dem größten Freelancer-Marktplatz für Softwareentwicklung.

  • Reales Spektrum an Projekten: Von 50-Dollar-Bugfixes, bei denen ein Login-Button nicht funktioniert, bis hin zu Feature-Implementierungen im Wert von mehreren Zehntausend Dollar, die komplexe End-to-End-Tests brauchen.

  • Rollenvielfalt: Die KI muss mal als Entwicklerin fungieren und Code reparieren, mal als Tech Lead verschiedene Implementierungsvorschläge abwägen.


Wie gut schneiden die Modelle hier ab?

Beim Blick in das offizielle SWE-Lancer-Paper fällt vor allem auf: So bald die KI auf komplexe Upwork-Projekte trifft, sinkt ihre Erfolgsquote teils drastisch. Bei einfachen Bugfixes schafft sie zwar oft passable 40–45 % – steigt jedoch der Projektumfang, rutscht sie schnell auf 25–30 % ab. Auch Manager-Aufgaben (z. B. Vorschläge bewerten) erledigen manche Modelle verlässlicher als das eigentliche Coding.

Die KIs identifizieren Fehlerstellen oberflächlich gut, kommen aber bei tieferer Ursachenanalyse schnell an ihre Grenzen. Und je größer oder teurer das Projekt (z. B. 5.000-Dollar-Features), desto häufiger bleibt die KI hinter menschlichen Freelancern zurück. 

Heißt also: Diese Benchmark misst wirklich, wie gut Modelle reale Probleme lösen können. Und davon wünschen wir uns mehr!

Übrigens, Microsoft-CEO Satya Nadella meinte kürzlich im Dwarkesh-Patel-Podcast: „Das eigentliche Ziel ist, ob KI die globale Wirtschaft um zehn Prozent steigern kann.“ Er mag echte Problemlösung genauso sehr wie wir.
Pressemitteilung, OpenAI Paper

🛠️ Trai it out:

Sprechen statt Schreiben

Diktierfunktionen für Computer und Handy gibt es schon lange. Doch die nativ eingebauten Tools sind oft nicht besonders gut, vor allem, wenn man Fachvokabular nutzt. Hier bringen KI-Tools deutliche Verbesserungen, denn sie verstehen den Kontext des Gesagten und sind dadurch deutlich akkurater. Es gibt mittlerweile eine Vielzahl an Tools mit unterschiedlichen Funktionen. Viele laufen auch einfach lokal und benötigen keine Internetverbindung.

Einige Empfehlungen:

Superwhisper — vielfältige Funktionen, auch in der kostenfreien Variante, aktuell nur für macOS

SpeechPulse — Für Windows und macOS

Wispr Flow — Aktuell für macOS, kommende Woche kommt das Windows Release

Spannende Demos:

Tools kurz & knackig:

  • ResumeBurger — CV pimpen mit KI

  • Fiverr Go — Mensch-KI-Kollaborationsplatform für Freelancer

  • Yess — KI Sales Assistent für Agenturen

🍭🍬 Gemischte Tüte

🇪🇺 EU-News:

  • Mistral bringt mit Saba sein erstes KI-Modell speziell für den Nahen Osten und Südasien auf den Markt. Der 24B-Parameter-Model unterstützt Sprachen wie Arabisch, Tamil und Malayalam und soll effizienter und kostengünstiger arbeiten als größere Modelle. Ziel ist es, lokalisierte und kulturell passende KI-Systeme anzubieten. Link 

  • Großbritannien benennt sein AI Safety Institute um, offenbar auf Druck von JD Vance. Die USA nehmen angeblich immer mehr Einfluss auf die britische KI-Politik. Link

👩‍💻 Tech-News:

  • Die ehemalige OpenAI-CTO Mira Murati hat ihr eigenes KI-Startup offiziell gestartet. "Thinking Machines Lab" soll fortschrittliche KI-Systeme entwickeln, die “besser verständlich, anpassbar und leistungsfähiger sind als aktuelle Modelle”. Was genau das bedeutet? Keine Ahnung – aber Investoren werden ihr das Geld nur so hinterherwerfen. Link

  • Erinnerst du dich an den Humane AI Pin? Tja, er ist offiziell tot. HP kauft die Überreste des Startups für 116 Millionen Dollar. Link

  • Meta könnte weniger an der KI-Welle verdienen als viele denken – ein neuer Bericht stellt die großen Einnahmeerwartungen durch KI-gestützte Werbung infrage. Link 

  • Apple entwickelt angeblich humanoide und nicht-humanoide Roboter für ein zukünftiges Smart-Home-Ökosystem. Analyst Ming-Chi Kuo berichtet, dass ein mögliches Release frühestens 2028 stattfinden könnte. Während Apple noch keine offiziellen Pläne bestätigt hat, deuten Forschungspapiere auf „nicht-anthropomorphe“ Roboter hin. Link 

  • Eine Gruppe von Professoren der University of Washington hat eine kostenlose Anleitung veröffentlicht, wie man KI nutzt, ohne auf Halluzinationen hereinzufallen. Link 

  • Anthropic bringt demnächst ein neues KI-Modell raus, das klassische Sprachfähigkeiten mit fortgeschrittenerem logischem Denken kombiniert. Es soll besonders gut im Programmieren sein und Entwicklern ermöglichen, die Rechenleistung flexibel anzupassen. Gerüchten zufolge hat Anthropic bereits intern eine leistungsfähigere KI als OpenAIs GPT-4o, die aus Sicherheitsgründen aber noch nicht veröffentlicht wurde. Link 

  • Gemini’s „Deep Research“ Feature kommt auf das iPhone, nachdem es bereits für Android veröffentlicht wurde. Link 

  • Elon Musk erhöht den Druck auf OpenAI: Erst bot er fast 100 Mrd. Dollar für eine Übernahme, nun schlägt er einen Deal vor – er lässt von seinem Angebot ab, wenn OpenAI verspricht, Non-Profit zu bleiben. Aktuell fechten beide Seiten ohnehin schon eine juristische Schlacht über OpenAIs ursprüngliche Mission aus. Link 

  • OpenAI erwägt Sonderrechte für Wählerstimmen im Vorstand, um eine Übernahme durch Elon Musk zu verhindern. Link

  • NVIDIAs Rechenleistung verdoppelt sich alle 10 Monate – laut Epoch AI produziert NVIDIA in nur 10 Monaten mehr Rechenleistung als alle bisherigen GPUs zusammen. Und 10 Monate später passiert das Gleiche wieder. Link 

  • Drei neue Studien zu KI-Halluzinationen sind erschienen. Ein zentrales Fazit: KI kann großartig sein, aber ohne menschliche Kontrolle entstehen gefährliche Fehler. Wer produktiv mit KI arbeiten will, sollte kritisch bleiben. Link 

  • DeepSeeks Gründer Liang Wenfeng hat sich mit Chinas Präsident Xi Jinping getroffen – ein Zeichen dafür, dass das Unternehmen politisch Rückenwind bekommt. Link 

  • China hat mehr als nur DeepSeek – hier sind sieben weitere KI-Startups, die man im Blick haben sollte. Link 

  • Amazon, Nvidia und Alphabet setzen auf Licht statt Metall: Ein neuer Ansatz für Chip-Verbindungen könnte Datenübertragungen um das 100-fache beschleunigen – ein möglicher Gamechanger für schnellere und energieeffizientere KI-Modelle. Link 

  • Die angesagtesten KI-Modelle, was sie können und wie man sie nutzt. Link

  • Autopsiebericht: OpenAI-Whistleblower Suchir Balaji starb durch Suizid. Link

👷 Work & Future of Work:

  • Google Meet bekommt ein AI-Upgrade: KI-Transkripte erstellen jetzt automatisch Aufgaben und To-Dos aus Meetings. Link

🆕 Neue Anwendungsfelder:

  • Forscher nutzen KI, um extrem komplexe mathematische Probleme zu lösen: Statt einfach nach Mustern zu suchen, nimmt ihr Algorithmus bewusst ungewöhnliche und „seltene“ Wege, um ungelöste Theoreme zu knacken – darunter einige, die Mathematiker seit Jahrzehnten beschäftigen. Link 

  • GE Aerospace setzt KI ein, um Turbinen in Flugzeugmotoren schneller zu inspizieren. Das neue System halbiert die Prüfzeiten und hilft Mechanikern, Probleme früher zu erkennen. Link 

🔐 Cybersecurity & AI Safety:

  • Südkorea verbannt DeepSeek aus den App-Stores – Grund sind Bedenken wegen Datenschutz und Privatsphäre. Link

  • Mastercard und Feedzai bündeln ihre Kräfte, um mit KI betrügerische Scams zu bekämpfen. Link

  • Während Israel in seinem Krieg US-KI-Modelle einsetzt, wächst die Sorge über den Einfluss der Technologie auf Leben und Tod. Link

🏥 Health & Education:

  • Das bisher größte KI-Biologiemodell schreibt DNA auf Abruf – eine Revolution für die Genforschung. Link

  • Ex-DeepMind-Forscher startet neues KI-Biotech-Startup: Simon Kohl, einer der Entwickler von AlphaFold2, baut mit Latent Labs Modelle, die völlig neue Proteine generieren können – darunter Krankheiten bekämpfende Antikörper und Enzyme. Microsoft- und Stability-AI-Veteranen sind schon an Bord. Link 

  • MyFitnessPal führt eine KI-gestützte Essensplanung ein, die Mahlzeiten basierend auf deinen Zielen, Vorlieben und Gewohnheiten vorschlägt. Link 

🖼️ Kreativindustrie:

  • Die New York Times setzt jetzt voll auf interne KI-Tools und investiert massiv in eigene KI-Entwicklungen. Link

  • Microsoft entwickelt ein KI-Modell speziell für Videospiele. Link

AI Peanuts Workbook

Vollgepackt mit KI-Wissen, Tools & Tutorials!

Du hast angefangen, dich tiefer mit dem Thema KI zu beschäftigen und willst den nächsten Schritt machen? Dann ist unser offizielles AI Peanuts Workbook genau das Richtige für dich!

Das Workbook ist kein klassisches “Buch”, sondern ein praxisorientiertes, interaktives digitales Dokument. Gegliedert in 3 Teile:

Theorie — Der Textbuch-Teil des Workbooks, in dem wir das Thema KI und seine technischen Grundlagen erklären.
Praxis — Eine Reihe von praktischen Tutorials, mit denen du lernst, KI praktisch anzuwenden (z.B.: ChatGPT Masterprompts, HeyGen, NotebookLM, Midjourney…)
Daten  Datenbanken mit den besten KI-Tools und den spannendsten Firmen im KI-Umfeld.

🧂 Salty Memes:

Du hast Fragen, Anmerkungen oder brauchst unsere Hilfe?
Schreib uns einfach an:
[email protected]

Hilf uns dabei, besser zu werden! Was war schlecht? Was war gut? Wie fandest Du diese Ausgabe von AI Peanuts?

Login oder Abonnieren um an umfragen teilzunehmen.

Bis Dienstag!