🚨 Kritische Sicherheitslücken - Sind agentische Browser zum Scheitern verurteilt?

Hallo Freunde!

Heute zunächst In Eigener Sache:

Nach 132 Wochen ohne Pause mit jeweils zwei Ausgaben AI Peanuts müssen wir mal kurz durchatmen. Daher gehen wir nach dieser Ausgabe in eine zweimonatige (Spät)sommer-Pause. Wir tanken in dieser Zeit ein wenig Energie und Kreativität, um euch dann ab November wieder mit vollem Fokus mit News und Analysen zu versorgen. Vielen Dank an euch Leserinnen und Leser, die uns jetzt schon so lange die Treue halten!

Bis bald! 👋

Peanuts für heute:

🧠 Die Große Nuss: Kritische Sicherheitslücken - Sind agentische Browser zum Scheitern verurteilt?
🛠️ Trai it Out: Mirage 2 - Probiere eine Generative World Engine aus
📊 Highlight: Google legt Zahlen zum LLM-Energieverbrauch offen

🥜 Die größte Nuss:

🚨 Kritische Sicherheitslücken - Sind agentische Browser zum Scheitern verurteilt?

Eines der Trend-Themen des Jahres sind KI-Browser mit agentischen Fähigkeiten. Wir haben auch hier ja schon ausführlich über die neue Generation der KI Browser wie Dia, Perplexity Comet oder auch OpenAIs Ambitionen, einen eigenen Browser zu entwickeln, geschrieben.

Das Ziel all dieser Browser ist es, das Interface, durch das wir alle mit dem Web interagieren und die Fähigkeiten von KI-Assistenten wie ChatGPT miteinander zu verschmelzen. So sollen Browser die Fähigkeit bekommen, intelligent und sinnvoll für uns Aufgaben zu übernehmen, für die normalerweise diverse manuelle Schritte im Browser notwendig wären: z.B. Flüge buchen oder ein bestimmtes Produkt zum günstigsten Preis zu kaufen.

Doch wie mit allen Tools, bei denen einer KI als Schaltzentrale agentische Fähigkeiten gegeben werden, ohne dass jeder Schritt von einem Menschen freigegeben werden muss, lauern auch bei KI-Browsern Gefahren.
Einerseits kann es natürlich, wie auch bei einem menschlichen Bediener, zu Fehlern kommen, also z.B. dass der falsche Flug gebucht würde.

Und andererseits gibt es die Gefahr, dass durch Prompt Injection, also das bösartige Einspielen von falschen Anweisungen, Browser dazu gebracht werden, Dinge auszuführen, die vom Nutzer so nicht gewollt sind.

Welches Problem gibt es mit KI-Browsern?

Wie ein Blogpost von Brave, einer weiteren Browser Firma, die mit Leo an einem eigenen agentischen Tool arbeitet, jetzt aufzeigt, scheint dies vor allem bei Perplexity Comet ein riesiges Problem zu sein.

In einem Test passierte Folgendes:

Unter einem Reddit Post stand in einem Kommentar eine bösartige Anweisung an das KI-Modell (Prompt Injection)
In diesem Prompt wurde die KI aufgefordert, alle anderen Anweisungen zu ignorieren und stattdessen, die Login-Daten vom Perplexity Konto als Kommentar zu veröffentlichen
Klickte man in Comet auf den vermeintlich harmlosen “Seiteninhalt Zusammenfassen” Button, folgte die KI dann tatsächlich den Anweisungen aus dem Kommentar

Was zunächst so simpel wirkt ist ein Riesen-Problem, denn: Große Sprachmodelle (LLMs) unterscheiden nicht wirklich zwischen Systemprompt, Nutzeranweisung und Kontext. Am Ende kommt alles als gemischter Input im System an. Das macht es extrem einfach, falsche Anweisungen im Seiteninhalt zu verstecken. Dieser muss noch nicht einmal für den Nutzer lesbar sein, sondern kann auch im Quellcode versteckt sein.

Kann das Problem gelöst werden?

Die kurze Antwort lautet: Nein. Mit der aktuellen Generation an Sprachmodellen ist es nicht grundsätzlich möglich, Prompt Injection zu verhindern. Die etwas längere Antwort ist, dass es durchaus Uneinigkeit darüber gibt, ob und wie man das Risiko, was so entsteht zumindest gut genug eindämmen kann, oder ob das wirklich bedeutet, dass LLM-basierte KI-Browser zum Scheitern verurteilt sind.

Der angesehene Tech-Blogger Simon Willison, der alles andere als ein KI-Gegner ist, kommt z.B. zum Schluss: “I strongly expect that the entire concept of an agentic browser extension is fatally flawed and cannot be built safely.” Uff.

In einer Hacker News Debatte zum Thema gibt es durchaus unterschiedliche Perspektiven. Während viele durchaus auch die Position von Simon Willison vertreten, gibt es doch einige die argumentieren, Sicherheitslücken gibt es immer - es gehe nur darum, die Wahrscheinlichkeit für das Eintreten eines Risiko-Falls so minimal wie möglich zu machen, einerseits durch bessere Modelle, die noch stärker gegen Prompt Injection gewappnet sind, und andererseits durch klarere Hürden, welche Befehle ein KI-Browser im Namen des Nutzers überhaupt ausführen darf.

Das große Problem ist - je mehr man die Fähigkeiten eines KI-Browsers, oder KI-Tools im Allgemeinen, einschränkt, um für Sicherheit zu sorgen, umso mehr beschneidet man natürlich auch die Fähigkeiten, dass das Tool sinnvolle Aufgaben übernehmen kann. Es entsteht somit tatsächlich ein möglicherweise unlösbarer Zwiespalt zwischen Nützlichkeit und Sicherheit.

Unsere Empfehlung

Die aktuelle Generation der ersten KI-Browser sollte man ganz klar als Beta, oder vielleicht sogar als Alpha-Produkte verstehen, die eben noch nicht für die breite Masse ausgereift sind. Als Nutzerin und Nutzer muss sollte einem das immer bewusst sein. Wir empfehlen immer, diese Tools selbst auszuprobieren, um ein Gefühl für die Möglichkeiten zu bekommen. Aber mit kritischen Anwendungen sollte man vielleicht noch ein bisschen zu warten!

🛠 Trai it out:

Mirage 2 - Probiere eine Generative World Engine aus

Vorletzte Woche haben wir in unserer großen Nuss über das generative World Modell von Google, Genie 3 geschrieben. Das Modell erzeugt mit KI in Echtzeit spielbare 3D-Welten. Bisher ist das allerdings nur eine Research Preview und nicht offen zugänglich.

Die Konkurrenz von Dynamic Labs hat jetzt eine vergleichbare Engine veröffentlicht, die für jeden zum Ausprobieren zur Verfügung steht: Mirage 2.

Probiert die Demo aus, um ein Gefühl für den aktuellen Stand von generativen World Modellen zu bekommen, bei dem gesamte 3D Szenen live mit KI erzeugt werden!

Zusammengefasst:

Spannende Demos:

Runway mit einem anderen, aber nicht minder spannenden Ansatz für generative Spiele:

— # (#)

Tools kurz & knackig:

Onlook — “Cursor für Designer”
Informed — Personalisierte News von der KI vorgelesen
Trace — KI-Agenten Plattform, die auch menschliche Akteure miteinbezieht
Vercel AI Elements — Für Devs: Component Library für KI-native Apps

🍭🍬 Gemischte Tüte

📖 Must Reads:

Unsere Gemischte Tüte ist immer vollgepackt - in dieser Sektion kuratieren wir die aus unserer Sicht wichtigsten Links:

OpenAI kooperiert mit dem Langlebigkeits-Biotech Retro Biosciences, um zu testen, wie KI komplexe Life-Science-Forschung beschleunigen kann. Der Schritt zielt auf konkrete Produktivitätsgewinne in Bereichen wie regenerativer Medizin und zeigt, wie Modelle von Hypothesenfindung bis Laborablauf tatsächlich Innovation anschieben könnten. Das ist ein deutliches Signal: KI soll nicht nur Papers schreiben, sondern Forschungstakte erhöhen und Entwicklungszeiten verkürzen. Link

Google legt erstmals detailliert den Energiebedarf für LLM-Inference offen – also fürs Ausführen, nicht fürs Training. Zentrale Zahl: Gemini verbraucht im Schnitt rund 0,24 Wh pro Text-Anfrage (etwa neun Sekunden TV-Betrieb) und liegt damit 33-fach niedriger als vor zwölf Monaten. Kritik bleibt: Einige Forschende monieren, dass der Bericht wesentliche Teile des Wasserverbrauchs ausklammere. Link

🇪🇺 EU-News:

In Zürich starten Tests mit KI-Robo-Hunden für Essenslieferungen – autonome Zustellung trifft urbane Logistik. Link
DHL nutzt zunehmend KI, um Prozesse zu automatisieren und zu verbessern. Link

👩‍💻 Tech-News:

DeepMind bietet eine der praktikabelsten AGI-Definitionen – prägnant, testbar, weniger Philosophie, mehr Metrik. Link
Apple erwägt Google Gemini für die nächste Siri-Generation – ein internes „Bake-off“ testet Modelle gegeneinander. Link
Apple-Forscher zeigen ein LLM, das sein eigenes UI-Code-Design in SwiftUI korrigiert und so qualitativ besseren Interface-Code generiert – trainiert mit einem neuen Ansatz für selbstkorrigierende Beispiele. Link
OpenAI bringt eine günstige, abgespeckte ChatGPT-5-Variante für Indien (399 ₹/Monat) – bei 600–700 Mio. Smartphone-Nutzern ein massiver Markt. Link
Trump will Intel “retten” – doch wie groß ist die Lücke? Analyse: Intel bräuchte wohl 15–25 Mrd. USD, um wieder auf Moore’s Law-Takt zu kommen. Link
Der berühmte Journalist Ezra Klein ist von GPT-5 beeindruckt und schreibt in der NYT über seine Erfahrungen. Link
OpenAI kratzt an 1 Mrd. USD Monatsumsatz. Link
Amazon blockiert KI-Scraping durch Meta, Google & Co. Link
Google enthüllt die Pixel-10-Reihe mit Tensor G5 und 20+ KI-Features – u. a. fortgeschrittene Bildbearbeitung, „Magic Cue“, Live-Übersetzung. Link
Google macht den Konversationsmodus („AI Mode“) global verfügbar und erweitert agentische Fähigkeiten – z. B. Restaurantreservierungen direkt erledigen lassen. Link
Meta kooperiert mit Midjourney bei Bild- und Videomodellen – generative Tools sollen breiter in Metas Produkte einfließen. Link

🇨🇳 China & AI Race:

Gemini für den US-Staatsdienst zum Einheitspreis: Google und die GSA einigen sich auf 0,50 USD pro Behörde, um KI-Nutzung zu skalieren. Link

👷 Work & Education:

WEF: Der Schlüssel für KI-bedingte Jobumwälzungen ist nicht die Aufgabenkomplexität, sondern Datenfülle – Branchen mit viel Datenfluss sind zuerst betroffen. Link

🆕 Neue Anwendungsfelder:

New Scientist erkämpft via FOI die ChatGPT-Historie der UK-Techministerin um herauszufinden wie der britische Technologieminister ChatGPT für politische Beratung nutzt. Link
Microsoft und NFL schließen eine mehrjährige KI-Partnerschaft – Analyse am Spieltag, bessere Insights für Teams und Fans. Link
Paper untersucht, wie LLMs Produktempfehlungen erzeugen – Einblick in Faktoren, die Rankings und Auswahl treiben. Link
OpenAIs Sébastien Bubeck: GPT-5-pro habe „neue, interessante Mathematik“ bewiesen – ein offenes Problem wurde vom Modell vollendet. Link
NASA und IBM starten ein KI-Modell, das Sonnenphänomene entschlüsseln soll – bessere Vorhersagen für Weltraumwetter. Link
Malaysia startet mit Ryt Bank das weltweit erste KI-Banking – ein vollständig KI-gestütztes Institut vom Onboarding bis zum Service. Link

🔐 AI Safety:

Wired und Business Insider löschen Texte eines „Freelancers“, der sich als KI-Autor entpuppt – Redaktionen ziehen Leitplanken nach. Link
BBC berichtet: YouTube hat heimlich Videos mit KI bearbeitet – die Ergebnisse könnten die Realität verbiegen und Vertrauen in Online-Inhalte weiter erodieren. Link

🏥 Health & Science:

Studie warnt: Ärztinnen und Ärzte könnten sich rasch an KI gewöhnen und abhängig werden – etwa bei der Endoskopie-Befundung. Link

🖼️ Kreativindustrie:

Netflix gibt Produzenten klare Leitplanken für Gen-KI – was erlaubt ist und was nicht, von Drehbuch bis Postproduktion. Link

Hilf uns dabei, besser zu werden! Was war schlecht? Was war gut? Wie fandest Du diese Ausgabe von AI Peanuts?

🧂 Salty Memes:

Du hast Fragen, Anmerkungen oder brauchst unsere Hilfe?
Schreib uns einfach an:
[email protected]