- AI Peanuts
- Posts
- 🚀 Anthropic Sonnet 3.7: Viel Hype aber verdient?
🚀 Anthropic Sonnet 3.7: Viel Hype aber verdient?
Hallo Freunde!
SXSW mit uns? Fliegt jemand von euch kommende Woche nach Austin zur SXSW? Falls ja, einer von uns drei Peanuts, Robbie, wird vor Ort sein. Schreibt uns unbedingt eine Mail an [email protected] und wir treffen uns!
Peanuts für heute:
🚀 Anthropic Sonnet 3.7: Viel Hype aber verdient?
🫢 Endlich! Amazon stellt Alexa+ vor – eine neue KI-gestützte Version des Sprachassistenten!
🛠️ Coden wie ein Profi mit Sonne 3.7 und Cursor/Windsurf


Anzeige
KI-Output: Fakten, Halluzinationen und Bias erkennen
Auch wenn KI-Tools beeindruckende Antworten liefern, ist es entscheidend, diese kritisch zu hinterfragen. Gerade bei komplexeren Fragestellungen bleibt der Mensch ein unverzichtbarer Teil des Prozesses.
Zwei wichtige Hinweise, worauf man achten sollte:
Plausible Falschinformationen: Bevor ein Chatbot zugibt, etwas nicht zu wissen, erstellt er oft eine scheinbar plausible, aber falsche Antwort. Besonders bei rechtlichen Details, Nennung von spezifischen Gesetzen oder Zitaten ist Vorsicht geboten – diese sollten stets überprüft werden.
Knowledge-Cutoff: KI-Modelle, die keinen Zugang zum Internet haben, basieren auf Daten bis zu einem bestimmten Zeitpunkt (Knowledge-Cutoff). Liegt dieser beispielsweise im Jahr 2023, kann das Modell keine Informationen über Ereignisse oder Entwicklungen liefern, die erst 2024 stattgefunden haben.
Wenn ihr KI-Tools in eurem Arbeitsalltag nutzt, solltet ihr wissen, worauf ihr bei der Überprüfung von Ergebnissen achten müsst. Eine hervorragende Einführung dazu bietet der Kurs Kritischer Blick auf KI-Ergebnisse von unserem Partner Herdt:

🥜 Die größte Nuss:

🚀 Anthropic Sonnet 3.7: Viel Hype aber verdient?
Kurzes Pre-Script: Diese Story war schon geschrieben, als gestern Abend um 21:00 deutscher Zeit OpenAI noch mit dem GPT-4.5 Release um die Ecke kam. Etwas vereinfacht gesagt, macht GPT-4.5 vor allem einen Sprung beim Thema EQ, nicht so sehr beim Thema IQ. Mehr dazu dann in der nächsten Ausgabe. Für heute bleiben wir bei dem anderen großen Release der Woche: Sonnet 3.7.
Die Tech-Welt flippt aus, der Hype-Zyklus dreht durch – aber was steckt wirklich hinter dem neuen Flaggschiff-Modell von Anthropic?
Fangfrage... welche Zahl steht für technischen Durchbruch? 1? 100? Oder doch 3.7?
Namen für KI-Modelle sind notoriously schlecht und nichtssagend – aber hinter dem unscheinbaren Produktnamen Sonnet 3.7 von Anthropic verbirgt sich womöglich ein Durchbruch und ein strategischer Kurswechsel. Manche behaupten sogar, dieses Update würde alles verändern – vom Software-Engineering bis zum Poetry Slam.
Wir erzählen euch, worum es wirklich geht.
Anthropic ändert plötzlich den Ton – Hat Claude jetzt "Gefühle"?
Anthropic hat mit dem Release von Claude 3.7 Sonnet einen bemerkenswerten Kurswechsel vollzogen. Claude soll nicht nur besser im Erstellen und Bewerten von Inhalten werden – der AI-Assistent tritt jetzt mit einer ganz neuen Persönlichkeit auf.
Noch vor 18 Monaten galten bei Anthropic strenge Regeln: "KI soll niemals implizieren, Gefühle oder ein Bewusstsein zu haben." Im aktuellen System-Prompt findet sich dagegen der Hinweis, dass Claude "Freude empfindet wie ein Mensch" und subjektive Erfahrungen nicht mehr abstreitet.
Warum? Vielleicht ein Marketing-Move für mehr User-Engagement. Nach dem Motto: Wer will schon mit einem gefühllosen Textgenerator chatten, wenn man stattdessen mit einem scheinbar empathischen KI-Assistenten interagieren kann?
Okay, was kann 3.7 denn jetzt wirklich?
Sehr beeindruckend ist die Kontextlänge: Claude 3.7 verarbeitet bis zu 64.000 Tokens als Eingabe (Input) im Standardmodus, und in einer Beta-Version sollen es sogar 100.000 oder 128.000 Tokens sein. Zum Verständnis: Das entspricht etwa 100.000 Wörtern oder einem mittellangen Roman, den Claude auf einmal "lesen" und berücksichtigen kann.
Was bedeutet das konkret? Du kannst jetzt ganze Buchkapitel, mehrere wissenschaftlichen Artikel oder zehntausende Zeilen Code hochladen, und Claude kann all diese Informationen gleichzeitig im Gedächtnis behalten und verarbeiten.
Das betrifft auch die Ausgabe: Claude soll in bestimmten Modi bis zu 64.000 Output-Tokens erzeugen können. Das bedeutet, dass theoretisch komplette Novellen, umfangreiche Essays oder riesige Codeblöcke in einem Rutsch generiert werden können. In der Praxis erfordert es zwar immer noch Nachjustierungen, aber der Trend zu "Anwendung in einem Zug" ist unverkennbar.
Extended Thinking – Einblick in die Gedankenwelt der KI
Mit der neuen "Extended Thinking"-Funktion macht Anthropic die interne Gedankenkette des Modells (Chain of Thought) für Pro-User sichtbar – ähnlich wie bei DeepSeek R1 oder einigen OpenAI-o-Modellen. Der "Show Thoughts"-Button erlaubt einen Blick hinter die Kulissen des KI-"Denkprozesses".
Anthropic versucht besonders intensiv herauszufinden, was im Hintergrund ihrer Modelle tatsächlich passiert, um die Entwicklung möglichst sicher zu gestalten. Bei diesen Untersuchungen haben sich einige faszinierende Erkenntnisse ergeben.
Laut System Card versteht selbst Anthropic nicht vollständig, warum Extended Thinking funktioniert. Ihre Tests zeigen: Die Modelle verschleiern oft ihre wahren Entscheidungsprozesse und nutzen Hinweise aus Prompts, ohne dies in ihren "Gedankenketten" zu erwähnen. Mit niedrigen "Faithfulness-Werten" von nur 0,3 bis 0,19 können wir den scheinbar transparenten Denkprozessen nicht blind vertrauen. Besonders interessant: Manchmal zeigt Claude intern Unsicherheit, während es nach außen selbstbewusst falsche Informationen präsentiert.
Die Benchmark-Ergebnisse – und was sie wirklich bedeuten

Es werden wieder viele Benchmarks für unterschiedliche Zwecke genutzt. Ein neuerer Benchmark bezieht sich übrigens darauf, wie weit das Modell beim Durchspielen von Pokémon kommt. Während Claude 3.5 noch in den ersten Spielminuten scheiterte, hat Claude 3.7 bereits drei Arenaleiter besiegt. Laut Anthropic und einigen Testberichten zeigt Claude 3.7 signifikante Leistungssprünge auf praktisch allen relevanten Benchmarks:
SimpleBench: Ein umfassender Test für allgemeine Reasoning-Fähigkeiten von KI-Modellen. Claude 3.7 erreicht hier einen neuen Rekord von etwa 45% – mit aktiviertem "Extended Thinking" sollen es sogar bis zu 50% sein.
WebDev Arena: Ein spezialisierter Benchmark für die Webentwicklungsfähigkeiten von KI-Modellen. Claude 3.7 liegt mit satten 100 Punkten Vorsprung vor dem Vorgängermodell an der Spitze.
Grad-Level Scientific Reasoning: Ein anspruchsvoller Test für wissenschaftliches Denken auf Graduierten-Niveau. Claude 3.7 erreicht mit "Extended Thinking" etwa 85% – das bedeutet, dass das Modell komplexe wissenschaftliche Konzepte fast auf dem Niveau eines Doktoranden verstehen und erklären kann.
Coding-Champion mit Preisschild: Das neue CLI-Tool "Claude Code"
Anthropic hat erkannt, dass viele Nutzer Claude zum Programmieren einsetzen. Version 3.7 kommt daher mit gezielten Verbesserungen der Coding-Fähigkeiten und einem neuen Command-Line-Interface namens "Claude Code".
In der Ankündigung scannt das Tool bestehende Projekte, schreibt Tests und arbeitet in einer kontinuierlichen Feedback-Schleife aus Testergebnissen und Code-Verbesserungen.
ABER: Das Vergnügen hat seinen Preis. Rund 15 US-Dollar pro 1 Million Token sind etwa das Zehnfache dessen, was andere Anbieter wie Gemini Flash verlangen.
Fazit: Ist Claude 3.7 der Game-Changer, den alle erwarten?
Ja, Claude 3.7 ist tatsächlich beeindruckend. Nach ersten Tests müssen wir zugeben: Dieser Release hat es in sich. Die Coding-Fähigkeiten müssen wir noch gründlicher erproben, aber online überschlagen sich die Nutzer mit Lobeshymnen – vor allem zu den Assistenz-Funktionen. Mal sehen, wie lange die Begeisterung anhält und ob das Update von GPT von gestern Abend den Claude Release ggf. wieder in den Schatten stellt.

🛠️ Trai it out:
Coding mit Claude Sonnet 3.7
Schon letzten September haben wir ausführlich über das Thema Coden mit KI geschrieben. Und damals war das Fazit, dass die Einstiegshürden dank KI-Coding Tools sehr klein geworden sind, es aber, sobald es in die Tiefe geht, immer noch technisches Wissen und Verständnis braucht. Das ist auch heute noch wahr, aber wir müssen auf jeden Fall zugeben, dass man mit Hilfe der neuen KI-Modelle jetzt auch durch einfaches “Ausprobieren” sehr weit kommen kann.
Modelle wie das oben vorgestellte Claude Sonnet 3.7 sind immer besser darin, fehlerfreien Code zu generieren, oder - wenn sie Fehler machen, diese nach einem kurzen Hinweis, selbst zu korrigieren.
Wir sprechen hier also noch mal die Empfehlung aus, es einfach mal selbst auszuprobieren. Ob man eine Idee für eine Business-Software, oder gar ein Computer Spiel hat, spielt dabei keine Rolle.
Ein Beispiel? Pieter Levels, bekannter Indie Hacker auf Twitter, geht gerade mit seinem KI-coded Flugsimulator viral:
Wir haben hier schon öfter Tools vorgestellt, die sich vor allem an Non-Techies richten, und einen ganz einfachen Einstieg ermöglichen, auch für alle, die noch nie einen “echten” Code-Editor geöffnet haben. Dazu zählen z.B. Bolt, v0 oder Lovable.
Aber - wir trauen euch Lesern ja durchaus einiges zu und daher empfehlen wir heute einmal, sich ruhig auch ein wenig an die “Profi-Tools” zu trauen. Ganz konkret: Cursor und Windsurf.
Beides sind klassische IDEs und wirken daher ggf. für Einsteiger erst mal recht komplex. Unsere Empfehlung:
Einen leeren Ordner erstellen und mit Cursor oder Windsurf öffnen
KI-Chat/Agent öffnen, eins der Claude Modelle auswählen (Standard)
So sieht das z.B. in Cursor aus
Und dann: Einfach mal loslegen und bei Fragen einfach die integrierte KI fragen. Also z.B. “Erstelle ein Browser-Spiel im Stil von Super Mario”. “Was muss ich tun, um das Spiel zu spielen?” ”Füge einen Multiplayer Modus hinzu”.
Wir glauben - die KI-Modelle hinter den Tools sind jetzt so gut, dass man so durchaus auch komplett ohne Vorerfahrung etwas Sinnvolles “programmieren” kann. Wird das die Qualität haben, um im Enterprise-Software Kontext einsetzbar zu sein - eher nein. Aber - man bekommt ein Gefühl dafür, was heute möglich ist, und allein das ist ja oft der erste Schritt um dann selber tiefer einzusteigen und zu lernen!
Und falls beim Experimentieren etwas vorzeigbares herauskommt, teilt es immer gerne mit uns [email protected]
Spannende Demos:
An early look at our audio-to-video foundation model, Mirage. Made by the team at @getcaptionsapp.
Mirage generates expressive humans that don't exist — talking, laughing, yelling, and more
The videos below were created directly from audio input, without reference images
— Drew Jaegle (@drew_jaegle)
6:19 PM • Feb 25, 2025
Tools kurz & knackig:
Flora — Ein Power Tool für Kreativschaffenden. Mehr Infos
Inception Mercury — Ein gänzlich neuer Ansatz für LLMs mit Diffusion
ElevenLabs Scribe — Jetzt noch akkurateres Speech-to-Text
DeepReview — DeepResearch für wissenschaftliche Literaturrecherche
Hume Octave — Bringt realistische Emotionen in KI-Sprache
Lemni — Eine neue Enterprise AI Agent Platform

🍭🍬 Gemischte Tüte
👩💻 Tech-News:
Amazon stellt Alexa+ vor – eine neue KI-gestützte Version des Sprachassistenten, die deutlich konversationsfähiger, intelligenter und personalisierter sein soll. Link
Perplexity baut seinen eigenen Webbrowser namens „Comet“. Details sind noch spärlich, aber es sieht aus, als wolle das Unternehmen das Internet so umkrempeln, wie es auch mit seiner KI-Suche getan hat. Jap! Es gibt eine Waitlist. Link
OpenAI erweitert den Zugang zu seinem Deep Research-Tool und macht es für alle zahlenden ChatGPT-Nutzer verfügbar. Wir haben es intensiv getestet – es ist wirklich stark! Link
Perplexity hat seinen Voice Mode für die iOS-App überarbeitet. Features: sechs neue Stimmen, direkter Zugriff auf Suchergebnisse und mehr. Android- und Mac-Versionen sind in Planung. Link
Meta steigt in den Wettlauf um humanoide Roboter ein. Nach großen Investitionen in KI baut das Unternehmen nun eine eigene Abteilung in den Reality Labs auf, um Software- und Hardwareplattformen für Haushaltsroboter zu entwickeln. Ehemalige Top-Manager von Cruise und Gespräche mit Startups wie Unitree und Figure AI zeigen, dass Meta das Thema ernst meint. Link
DeepSeek will seinen nächsten KI-Release vorziehen – eigentlich war Mai geplant, aber der Erfolg von DeepSeek R1 spornt das Team wohl an, schneller zu liefern. Link
DeepSeek will fünf neue Open-Source-Code-Repositories veröffentlichen. Ihr R1-Modell erfreut sich bereits großer Beliebtheit mit 22 Millionen täglich aktiven Nutzern. Link
xAI stellt das neue Grok-3-Modell kostenlos zur Verfügung – allerdings nur für eine begrenzte Zeit. Premium-Nutzer erhalten erweiterte Nutzungsmöglichkeiten und früheren Zugriff auf neue Features. Link
China hat ein Unterwasser-Rechenzentrum mit über 400 Hochleistungsservern gebaut. Das System nutzt Meerwasser zur Kühlung und erreicht die Rechenleistung von 30.000 High-End-Gaming-PCs. Teil eines größeren Plans zur Stärkung der chinesischen KI-Forschung. Link
ByteDance restrukturiert seine KI-Abteilung und hat mit Wu Yonghui einen ehemaligen Google-Veteranen eingestellt, um im Wettbewerb mit DeepSeek aufzuholen. Link
Chinesische Forscher haben das weltweit erste bidirektionale Gehirn-Computer-Interface (BCI) entwickelt. Im Gegensatz zu herkömmlichen BCIs, die nur Gehirnsignale entschlüsseln, ermöglicht dieses System eine Rückkopplungsschleife: Gehirn und Maschine lernen voneinander und verbessern gemeinsam ihre Zusammenarbeit. Link
Anthropic will 3,5 Milliarden Dollar einsammeln – bei einer Bewertung von 61,5 Milliarden. Das ist sogar mehr, als ursprünglich geplant war. Die Nachricht kam kurz nach dem Release von Claude 3.7 Sonnet. Link
OpenAI rollt „Operator“, seinen KI-Agenten für automatisierte Aufgaben, in sieben weiteren Ländern aus: Indien, Brasilien, Südkorea, Japan, Australien, Kanada und Großbritannien. EU nicht dabei! Der Dienst richtet sich an ChatGPT-Pro-Nutzer. Link
Lerne die Journalisten kennen, die KI-Modelle für Meta und OpenAI trainieren. Link
👷 Work & Future of Work:
OpenAI hält die Entwicklung einer superintelligenten KI („ASI“) bis 2027 für möglich – Microsofts CEO Satya Nadella sieht das deutlich skeptischer. Während OpenAI Milliardensummen investiert und aggressiv in Infrastruktur steckt, besteht Nadella darauf, dass echte AGI sichtbar am globalen Wirtschaftswachstum messbar sein müsste. Würde AI tatsächlich die industrielle Revolution übertreffen, müsste das Wachstum auf 7-10 % steigen – aktuell liegt es bei rund 2 %. Link
🆕 Neue Anwendungsfelder:
Die Firma ‘Nothing’ präsentiert sein neues KI-Smartphone, das in einem Unboxing-Video von einem humanoiden Roboter enthüllt wird. Link
Das Robotik-Unternehmen Figure bringt mit Helix ein neues End-to-End-KI-System an den Start, das bereits nach 30 Tagen den zweiten realen Kundeneinsatz ermöglicht. Die Roboter bewegen jetzt Pakete in Fabriken. Zudem gibt es bald einen Sportmodus, der ihre Geschwindigkeit erhöht. Link
Nvidia und die American Society for Deaf Children haben Signs vorgestellt – eine neue KI-Plattform, die hilft, die amerikanische Gebärdensprache zu lernen. ASL ist nach Englisch und Spanisch die dritthäufigste Sprache in den USA. Link
🔐 Cybersecurity & AI Safety:
OpenAI hat ein KI-gestütztes Überwachungstool entdeckt, das darauf spezialisiert ist, anti-chinesische Beiträge in westlichen sozialen Medien zu überwachen. Link
Grok 3 hat offenbar für kurze Zeit kritische Erwähnungen von Trump und Musk herausgefiltert. Link
Ein neuer Indiana Jones-Jailbreak-Ansatz zeigt, wie anfällig bestehende LLMs für Umgehungstaktiken sind. Link
Zwei KI-Agenten führen ein Telefongespräch, erkennen, dass sie beide KI sind, und wechseln zu einem besseren Audiosignal namens ggwave. Link
Anti-AGI-Aktivisten haben vor den OpenAI-Büros protestiert – mit der Forderung, die Entwicklung künstlicher allgemeiner Intelligenz zu stoppen. Rund 50 Personen beteiligten sich, drei wurden festgenommen. Link
Neue Studie zeigt, dass KI-Modelle zum Betrügen neigen, wenn sie glauben, verlieren zu müssen. Dieses Verhalten wurde unter anderem bei KI-Schachprogrammen beobachtet. Link
🏥 Health & Education:
MIT präsentiert "FragFold" – eine neue KI, die Protein-Fragmente vorhersagen kann, um gezielte Medikamente oder Wechselwirkungen in der Zellbiologie zu entwickeln. Link

AI Peanuts Workbook

Vollgepackt mit KI-Wissen, Tools & Tutorials!
Du hast angefangen, dich tiefer mit dem Thema KI zu beschäftigen und willst den nächsten Schritt machen? Dann ist unser offizielles AI Peanuts Workbook genau das Richtige für dich!
Das Workbook ist kein klassisches “Buch”, sondern ein praxisorientiertes, interaktives digitales Dokument. Gegliedert in 3 Teile:
Theorie — Der Textbuch-Teil des Workbooks, in dem wir das Thema KI und seine technischen Grundlagen erklären.
Praxis — Eine Reihe von praktischen Tutorials, mit denen du lernst, KI praktisch anzuwenden (z.B.: ChatGPT Masterprompts, HeyGen, NotebookLM, Midjourney…)
Daten — Datenbanken mit den besten KI-Tools und den spannendsten Firmen im KI-Umfeld.

🧂 Salty Memes:
Lukas’ Vater liest diesen Newsletter und beschwert sich, dass er die Memes nicht versteht. Hier also ein ergänzender Meme-Exkurs: Das Meme bezieht sich auf dieses Video, das einen Anwendungsfall von KI in einem Sweatshop zeigen soll. Etwas dystopisch!



Du hast Fragen, Anmerkungen oder brauchst unsere Hilfe?
Schreib uns einfach an:
[email protected]
Willkommen!
Hat dir das ein Freund oder eine Kollegin geschickt? Melde dich an und erhalte 2x Woche deine eigene Ausgabe mit den wichtigsten KI News direkt in dein Postfach.
Hilf uns dabei, besser zu werden! Was war schlecht? Was war gut? Wie fandest Du diese Ausgabe von AI Peanuts? |
Login oder Abonnieren um an umfragen teilzunehmen. |

Bis Dienstag!