• AI Peanuts
  • Posts
  • 🤖 Operator: OpenAI released endlich seine Web-Agenten

🤖 Operator: OpenAI released endlich seine Web-Agenten

Hallo Freunde! 

An den Börsen ging es gestern ordentlich bergab bei den Tech- & KI-Aktien. Das hängt vermutlich mit der Veröffentlichung des neuen KI-Modells R1 aus China zusammen (wir haben letzten Dienstag darüber berichtet).
Wir sind an dem Thema dran, wollen aber mit etwas nüchternem Abstand dazu berichten. Daher gibt’s zu dem Thema mehr am Freitag.
Heute werfen wir erst mal einen Blick auf OpenAI’s neuste Agent-Veröffentlichung!
Los geht’s:

Peanuts für heute:

  • 🤖 Operator: OpenAI released endlich seine Web-Agenten

  • 🎬️ Bekommt der Film „The Brutalist“ wegen KI keinen Oscar?

  • 🛠️ Mit LM Studio KI-Modelle einfach lokal ausführen

Anzeige

KI im Unternehmen: Schluss mit Schatten-KI, Sicherheit geht vor!

Hast du dich schon einmal gefragt, wie du Künstliche Intelligenz sicher in deinem Unternehmen einsetzen kannst? Die rasante Entwicklung von KI-Technologien bringt nicht nur technische, sondern auch wichtige Datenschutz- und Sicherheitsfragen mit sich.

Ein oft unterschätztes Risiko: Was passiert mit den Informationen, die Mitarbeitende in KI-Tools eingeben, die privat “organisiert” wurden? Viele Anbieter nutzen diese Daten möglicherweise für das Training ihrer KI-Modelle – und das könnte sensible Firmeninformationen gefährden.

Doch es gibt Lösungen: Plattformen wie ChatGPT bieten in ihren Einstellungen die Möglichkeit, der Nutzung dieser Daten zu widersprechen.

Welche Datenschutzbestimmungen beim Einsatz von KI-Tools besonders relevant sind und worauf Unternehmen achten sollten, erfährst du ausführlich im Modul „Datenschutz & KI“ von unserem Partner Herdt. Dieses Modul ist für Unternehmen jeder Größe von Bedeutung. Wenn das für dich interessant klingt - schau doch mal rein:

🥜 Die größte Nuss:

🤖 Operator: OpenAI released endlich seine Web-Agenten

2025 soll das Jahr der KI Agenten werden. Claude und Perplexity haben es vorgemacht, Jetzt zieht OpenAI nach: Mit Operator bringt OpenAI seinen ersten „Agenten“ auf den Markt - eine KI, die nicht mehr nur Antworten liefert, sondern sich eigenständig durchs Web klickt, scrollt, interpretiert - und endlich alle langweiligen Tätigkeiten automatisiert (looking-at-you liebe Buchhaltung). Allerdings: Nur wenn man nicht in der EU wohnt (😞), aber dazu später mehr. 

Wie funktioniert Operator?

Operator ist ein „Computer-Using Agent“ (CUA), der Webseiten direkt wie ein Mensch bedient. Statt auf APIs angewiesen zu sein, kann die KI theoretisch jede Website bedienen lassen – durch Screenshots, Tastatur- und Mausinteraktionen. Dadurch wird plötzlich alles automatisierbar, nicht nur Plattformen mit offenen Schnittstellen.

Das klingt spannend, aber gefühlt sind alle KI-mit-Webzugang Beispiele immer die selben: „Buche mir ein Hotel“, „reserviere dieses Restaurant“, „Plan eine Reise nach Paris”. Als wären das die größten Herausforderungen unseres digitalen Alltags. Deswegen haben wir uns noch mal nach interessanteren Beispiele umgeschaut: 

  • Für Schnäppchenjäger: Nicht nur Produkte finden, sondern auch Gutscheincodes recherchieren, die besten Angebote identifizieren oder Alternativen finden.

  • Technische Tests: Entwickler können Operator auf lokale Umgebungen loslassen, um neue Features zu testen und Bugs zu finden.

  • Komplexe Arbeitsprozesse: In einer User Demo organisierte Operator eine Due-Diligence-Plattform für eine M&A-Transaktion, erstellte eine Ordnerstruktur und recherchierte relevante Daten. 

  • Sicherheitskameras analysieren: Operator könnte Video-Feeds scannen und z. B. alle schwarzen SUVs mit Zeitangabe dokumentieren.

Operator überzeugt vor allem durch seine Flexibilität. Weil keine APIs benötigt werden, können plötzlich auch Webseiten genutzt werden, die nie für Automatisierung gedacht waren. Vielleicht werden Websites in Zukunft sogar bewusst für die Bedienung durch KI-Agenten gestaltet sein.

Schwächen und Grenzen

Trotz dieser Vielseitigkeit bleibt Operator ein Experiment mit klaren Schwächen:

  • Komplexe Interfaces: Wenn Webseiten zu unübersichtlich oder schlecht designed sind, kommt Operator schnell an seine Grenzen.

  • Eingeschränkte Aufgaben-Horizonte: Längere, vielstufige Aufgaben überfordern die KI oft, da sie bisher nur in kurzen Zeitspannen zuverlässig arbeiten kann.

  • Fehleranfälligkeit: Operator macht bei schwierigeren Aufgaben wie z.B. Filtereinstellungen für Konzerttickets oft Fehler oder bleibt hängen.

OpenAI hat deshalb eine wichtige Sicherheitsfunktion eingebaut: Operator meldet sich, wenn es Hilfe braucht – etwa bei CAPTCHAs, Logins oder Zahlungen. Nutzer können jederzeit eingreifen und die Kontrolle übernehmen.

Wer kann Operator nutzen?

Operator ist aktuell eine Research Preview – eine frühe Testversion, die zunächst nur in den USA verfügbar ist und das aktuell nur für die ChatGPT Pro User ($200/Monat). Die Verfügbarkeit für den normalen Plus Tier ist zumindest geplant.

Ein weltweiter Release ist geplant, allerdings betonte Sam Altman bereits dass es für Europa noch lange dauern könnte, ohne konkreter zu werden. Ein möglicher Hinweis kommt vom Klarna-CEO, der auf eine europäische Regelung verwies: Browser-basierte KI-Assistenten dürfen hier u.a. keinen Zugriff auf sensible Daten im Online Banking haben. Ob dies tatsächlich der Hauptgrund ist oder weitere Faktoren eine Rolle spielen, bleibt unklar.

Es gibt aber schon Alternativen: Für die Tüftler: Ein Tutorial zeigt, wie man Operator mit Open-Source-Software (Deepseeks r1 und browser-use) nachbauen kann – günstiger und auch in Europa machbar. Zugänglicher und sehr Operator ähnlich ist ein neues Tool namens Proxy von Convergence.ai.

Der Blick in die Zukunft

Andrej Karpathy, einer der prägenden Köpfe hinter OpenAI, bleibt realistisch. In einem Tweet hebt er hervor, dass Agenten wie Operator noch vor gewaltigen Herausforderungen stehen. Eine zentrale Schwäche liegt in der Verarbeitung von großen Datenmengen über längere Zeiträume hinweg – etwa bei Aufgaben wie der Analyse langer Videos oder mehrstufiger Arbeitsabläufe. Hier scheitern aktuelle Modelle oft an den schieren Datenmengen und der Komplexität der Aufgabe.

Auch die Integration von Multimodalität – also das Verarbeiten von Bildern, Videos, Audio und Text in einem Modell – ist laut Karpathy noch nicht ausgereift. Oft werden Daten nur über Workarounds eingebunden, was die Modelle schnell an ihre Grenzen bringt. Er erwartet, dass es noch ein bis zwei technische Durchbrüche benötigt, bis Agenten wie Operator unseren Arbeitsalltag umkrempeln. 

Aber: Es ist durchaus realistisch anzunehmen, dass unserer Art und Weise, “manuell” mit dem Web zu interagieren nicht mehr lange so bleiben wird, und mindestens die technisch versierten Nutzer das auch immer wieder im Tandem mit KI tun. Auf jeden Fall ist das Thema ein Fokus vieler Firmen, und jetzt eben auch von OpenAI. Wir beobachten die weiteren Entwicklungen genau und halten euch auf dem Laufenden.

🛠️ Trai it out:

LM Studio — Du willst KI Modelle ausprobieren, ohne dafür schon wieder einen neuen Account irgendwo anlegen zu müssen und nicht genau zu wissen wo und wie deine Daten eigentlich verarbeitet werden? Dann macht es Sinn, KI-Modelle lokal auf deinem Computer auszuführen. Klar, dafür solltest du nicht gerade auf einem 10-Jahre alten Gerät unterwegs sein und vor allem einiges an Arbeitsspeicher haben - aber grundsätzlich ist es auf vielen Geräten möglich. Und einfach ist es dank Tools wie LM Studio auch. Das kleine Programm ermöglicht, jegliche Open Source Modelle einfach herunterzuladen und lokal auszuführen - mit vielen hilfreichen Funktionen und einer nutzerfreundlichen Oberfläche.

Übrigens - die gerade so gehypten Reasoning Modelle auf Deepseek R1 Basis lassen sich damit auch ausführen!

Weitere Neue Tools, Updates & Demos:

  • Apollo AI — Open Source Modelle ausführen geht sogar auf dem iPhone, u.a. mit dieser App

  • Deeptrain Macht Videos für LLMs zugänglich

  • co.dev — Ein neuer KI-App Generator mit Unterstützung für den beliebten Next.js + Supabase Stack

  • Freepik — Haben wir hier schon mal gefeatured, ist immer wieder eine Erwähnung wert: Toolbox für KI-Bildediting

🍭🍬 Gemischte Tüte

🇪🇺 EU-News:

  • Aleph Alpha (wer kennt sie noch?) will KI um bis zu 400 Prozent leistungsfähiger machen. Okay, das würden wir gerne mal testen. Link

👩‍💻 Tech-News:

  • Zwei Nachrichten aus China: DeepSeek, ein chinesisches KI-Startup, hat mit seinem kosteneffizienten Modell R1 die Tech-Branche aufgewirbelt. Das Modell bietet ähnliche Leistung wie die besten OpenAI-Modelle – zu einem Bruchteil der Kosten. Nvidia-Aktien sind um über 5 % gefallen, und die Nasdaq Futures sackten um 2,5 % ab. Link 

  • Und Alibaba bringt neue Qwen-Modelle mit Unterstützung für 1 Million Tokens. Die Modelle Qwen2.5-1M (7B und 14B Parameter) bieten deutlich schnellere Verarbeitung und lange Kontexte, outperformen Konkurrenzmodelle wie GPT-4 bei komplexen Aufgaben und integrieren erweiterte Chat-Funktionen wie Websuche und Text-to-Video. Link 

  • Die Auswirkungen sieht man hier direkt: Der chinesische KI-Startup DeepSeek hat mit seiner extrem effizienten Technologie die Nasdaq-Futures um über 200 Punkte nach unten gedrückt. Link

  • Letzte Meldung aus China: China investiert 137 Milliarden Dollar in KI-Entwicklung und verstärkt damit den technologischen Wettbewerb mit den USA. Link

  • OpenAI hat ChatGPTs „Canvas“-Tool aufgerüstet: Jetzt kann man direkt HTML- und React-Code rendern. Die Funktion ist für alle Nutzer freigeschaltet, allerdings bleibt das fortschrittliche o1-Modell Pro-Nutzern vorbehalten. Link 

  • Und OpenAI arbeitet bereits an der nächsten Generation seines KI-Modells, “o4”, und verspricht erneut einen deutlichen Sprung in den Fähigkeiten. Link

  • Mark Zuckerberg hat angekündigt, dass Meta im Jahr 2025 ganze 60–65 Milliarden Dollar investieren will, um über 1,3 Millionen GPUs bereitzustellen. Zum Vergleich: 2024 sollen es 38–40 Milliarden Dollar sein, 2023 waren es rund 27 Milliarden. Link

  • Steven Sinofsky teilt seine Gedanken dazu, wie sich die Nutzung von LLMs im Alltag weiterentwickeln könnte – inklusive der Frage, warum Websites so etwas überhaupt unterstützen sollten. Link

  • Google bringt seine Gemini-KI auf Android-Geräte und startet eine Partnerschaft mit Samsung. Allerdings ist das Verhältnis nicht ganz unkompliziert: Samsung möchte sich mit eigenen Features abheben, bleibt bei generativer KI aber bisher deutlich hinter der Konkurrenz zurück. Link

  • ElevenLabs, das führende Text-to-Speech Startup, hat in einer neuen Finanzierungsrunde 250 Mio. USD eingesammelt, was das Unternehmen mit 3 Mrd. USD bewertet. Link 

  • Perplexity hat einen KI-Assistenten für Smartphones veröffentlicht, bisher allerdings nur für Android. Der Grund: Apple erlaubt Drittanbieter-Apps keinen tiefen Zugriff auf Systemfunktionen. Das zeigt einmal mehr, wie sehr Apple seine Position in Sachen Datenschutz und Wettbewerb verteidigt. Link

  • Wo wir bei KI Assistenten sind: Siri steht massiv in der Kritik. John Gruber beschreibt, wie schlecht Apples KI-Assistenz funktioniert, und Bloomberg berichtet, dass Apple eine interne Top-Managerin eingesetzt hat, um die Situation zu retten. Viele der auf der WWDC angekündigten Funktionen sind immer noch nicht verfügbar – ein Reset scheint dringend nötig. Link Link

  • 4 Charts zeigen, warum der Fortschritt bei KI nicht so bald stoppen wird. Link 

  • AI in der Bildung boomt – ChatGPT hat sich als beliebtes Werkzeug für Schüler etabliert: 1 von 4 US-Teens nutzt es bereits für Schulaufgaben, doppelt so viele wie im Vorjahr. Link 

👷 Work & Future of Work:

  • Wharton-Professor Ethan Mollick teilt neue Forschungsergebnisse, die für Aufsehen sorgen: KI-Modelle übertreffen Doktoranden in ihrem eigenen Fachgebiet bei einer Testreihe auf Graduierten-Niveau. Link 

  • Google hat 321 reale Anwendungsfälle für generative KI gesammelt – ein interessanter Überblick für alle, die Inspiration suchen. Link

  • PwC hat seine Prognosen für KI-Trends 2025 veröffentlicht. Wer wissen möchte, was auf uns zukommt, findet hier spannende Einblicke. Link

🆕 Neue Anwendungsfelder:

  • OpenAI-unterstütztes Start-up „Speak“ beeindruckt mit einer Sprachlern-App, die auf KI basiert, und erreicht eine Bewertung von 1 Milliarde Dollar. Link 

🖼️ Kreativindustrie:

  • Bekommt „The Brutalist“ wegen KI keinen Oscar? Der Filmpreis-Favorit ist in die Kritik geraten, weil die Aussprache der Schauspieler mit KI optimiert wurde. Link

🔥 Takes:

AI Peanuts Workbook

Vollgepackt mit KI-Wissen, Tools & Tutorials!

Du hast angefangen, dich tiefer mit dem Thema KI zu beschäftigen und willst den nächsten Schritt machen? Dann ist unser offizielles AI Peanuts Workbook genau das Richtige für dich!

Das Workbook ist kein klassisches “Buch”, sondern ein praxisorientiertes, interaktives digitales Dokument. Gegliedert in 3 Teile:

Theorie — Der Textbuch-Teil des Workbooks, in dem wir das Thema KI und seine technischen Grundlagen erklären.
Praxis — Eine Reihe von praktischen Tutorials, mit denen du lernst, KI praktisch anzuwenden (z.B.: ChatGPT Masterprompts, HeyGen, NotebookLM, Midjourney…)
Daten  Datenbanken mit den besten KI-Tools und den spannendsten Firmen im KI-Umfeld.

🧂 Salty Memes:

Du hast Fragen, Anmerkungen oder brauchst unsere Hilfe?
Schreib uns einfach an:
[email protected]

Hilf uns dabei, besser zu werden! Was war schlecht? Was war gut? Wie fandest Du diese Ausgabe von AI Peanuts?

Login oder Abonnieren um an umfragen teilzunehmen.

Bis Freitag!