• AI Peanuts
  • Posts
  • Googles Gemini 2.0: Der „Transformer“-Erfinder meldet sich zurück

Googles Gemini 2.0: Der „Transformer“-Erfinder meldet sich zurück

Seid ihr auch im Endjahresstress wie wir? Nicht mehr lange, Freunde. Auf den letzten Metern nochmal die Zähne zusammenbeißen! Um euch den Tag ein wenig zu versüßen, versorgen wir euch wie immer mit brandheißen KI-News. Kopf hoch!

Peanuts für heute:

  • 🧠 Googles Gemini 2.0: Der „Transformer“-Erfinder meldet sich zurück

  • 🔢 OpenAI Shipmas Tag 5: ChatGPT kommt zu Apple Intelligence.

  • 🛠️ Devin ist Live! KI-Programmierer einstellen für $500/Monat

Anzeige

Wo fange ich als Unternehmen beim Thema KI an?

Laut Bitkom sind zwar 78% der Industrieunternehmen davon überzeugt, dass KI künftig wettbewerbsentscheidend sein wird, aber trotzdem wollen 53% der Unternehmen aktuell lieber abwarten

Abwarten ist sicher die falsche Strategie. Zudem auch der „EU AI Act“ ab 1. Februar 2025 für alle Mitarbeitenden eine Grundausbildung zum sicheren Umgang mit KI vorgibt.

Im Basismodul des Grundkurs Künstliche Intelligenz zum „EU AI Act“ geht es u.a. genau um diese Fragen: In welchen Bereichen kann KI eine effiziente Unterstützung für Mitarbeiterinnen und Mitarbeiter sein? Welche Aufgaben kann KI mir schon heute abnehmen?

Wenn ihr euch diese Fragen auch in Bezug auf euer Unternehmen stellt und eine sofort einsetzbare Lösung für das Training am Arbeitsplatz sucht, sind die HERDT Kurse zur Künstlichen Intelligenz genau das richtige für euch. Mehr dazu gibt es hier: 

🥜 Die größte Nuss:

🧠 Googles Gemini 2.0: Der „Transformer“-Erfinder meldet sich zurück

Der schlafende Riese ist erwacht! Google hat sein neues Top-Modell Gemini 2.0 angekündigt – ein KI-Modell, das zeigt: Der Tech-Gigant zückt wieder schweres Geschütz, um sich im Wettstreit der Sprachmodelle und Agentensysteme zurück an die Spitze zu kämpfen.

Was ist Gemini 2.0?
Gemini 2.0 ist ein multimodales KI-Modell – das kennen wir bereits. Es versteht also nicht nur Text, sondern auch Bilder, Videos, Audio und sogar räumliche Zusammenhänge.

Das Besondere daran: Gemini kann diese Inputs kombinieren und daraus komplexe Kontexte ableiten. Dadurch avanciert es vom reinen Sprachmodell zum aktiven Assistenten, der nicht nur Fragen beantwortet, sondern auch Aufgaben durchführen soll.

Gemini kann recherchieren, planen und Aktionen ausführen – von Browser-Navigation bis hin zur Bildmanipulation. Die Integrationsmöglichkeiten sind beeindruckend vielseitig.

Projekt Astra: Der Alltag neu definiert
Mit Projekt Astra möchte Google einen universellen Alltagsassistenten etablieren - wir denken hier an Siri auf Steroiden. Im Video wechselt Gemini fließend zwischen Sprachen, versteht Akzente besser und ordnet auch seltene Begriffe korrekt ein.

Die Integration von Google Search, Lens und Maps hebt die Funktionalität auf ein neues Level. Astra liefert also nicht nur Informationen, sondern analysiert Bilder, gibt Wegbeschreibungen und erinnert sich an frühere Gespräche. Astra soll längerfristig nicht nur auf Smartphones, sondern auch in Brillen und anderen Geräten integriert werden.

Projekt Mariner: KI-Agenten im Browser
Mariner ist Googles ehrgeiziger Ansatz für KI-Agenten, die komplexe Aufgaben im Browser übernehmen sollen. Statt lediglich Fragen zu beantworten, versteht Mariner, was auf dem Bildschirm angezeigt wird – von Text und Bildern bis hin zu Code und Tabellen. Es navigiert eigenständig, sammelt Daten, füllt Formulare aus und kombiniert Informationen aus verschiedenen Quellen.

Eine kleine Gruppe von „Trusted Testers“ erprobt Mariner bereits über eine experimentelle Chrome-Erweiterung. Wenn das klappt… man wagt es kaum, davon zu träumen.

Neue Dimensionen mit Flash-Modus und 3D-Verständnis
Besonders beeindruckend ist der Flash-Modus, in dem Gemini 2.0 in Echtzeit reagiert. Damit lassen sich interaktive Szenarien nahtlos abbilden. Das 3D-Verständnis des Modells erlaubt es, Objekte und ihre räumlichen Beziehungen zu erkennen, was in Bereichen wie Robotik und Augmented Reality neue Anwendungsmöglichkeiten schafft.

Die Frage der Zuverlässigkeit
Trotz all der Innovationen bleibt die Frage: Kann man auf Gemini 2.0 setzen? Google ist bekannt für seine Expertise im KI-Bereich, aber auch für eine inkonsequente Produktstrategie.

Was heute gefeiert wird, kann morgen eingestellt werden. Entwickler und Nutzer benötigen deshalb Klarheit und Verlass. Ohne langfristige Roadmaps und stabile Weiterentwicklung könnte das große Potenzial von Gemini 2.0 ungenutzt bleiben.

Ein Blick in die Zukunft schon heute
Ein echtes Highlight ist die Möglichkeit, live mit Gemini 2.0 zu interagieren – und das schon jetzt! Über aistudio.google.com/live können Nutzer in Live-Gesprächen mit Gemini interagieren, inklusive Bildschirm- und Kamerafreigabe.

Der Traum ist, dass Gemini ein virtueller Mentor wird, der motiviert, begleitet und individuell unterstützt. Egal ob beim Erlernen von neuen Coding-Frameworks oder beim Gaming: Gemini erkennt, was auf dem Bildschirm passiert, gibt Tipps und recherchiert.

Fazit
Mit Gemini 2.0 wagt Google einen beeindruckenden Schritt nach vorn. Die Technologie überzeugt, die Möglichkeiten sind riesig, und die Projekte Astra und Mariner könnten den Alltag sowie die Arbeitswelt verändern. Jetzt muss aber auch die Verlässlichkeit mitziehen!

🛠️ Trai it out:

Devin — Devin ist an der Speerspitze eines großen Trends - Nicht-menschliche Mitarbeitende. Devin ist ein KI-Agent, der selbstständig Programmier-Tasks lösen kann. Man kommuniziert mit “ihm” wie mit einem Kollegen via Slack und schon legt Devin los und programmiert auf dem Level eines guten Junior-Software Entwicklers. Im März hatten wir erstmals über Devin berichtet, jetzt ist er für alle verfügbar. Kostenpunkt allerdings $500/Monat - was aber immer noch weniger als ein Minijobber ist..

Weitere Neue Tools, Updates & Demos:

  • BoldVoice Accent Guesser — Erkennt die KI euren Akzent?

  • CodeArena Lasst unterschiedliche LLMs im Coden gegeneinander antreten

  • Grok — Elon Musk’s xAI ChatGPT Konkurrenz ist jetzt für alle X-Nutzer verfügbar und kann u.a. mit einem neuen eigenen KI-Modell ziemlich gute Bilder erzeugen.

  • ChatGPT AVM Video — Der Advanced Voice Modus von ChatGPT versteht jetzt auch Live-Video Input.

  • Every TLDR — Every macht aus seinen internen Meetings Podcasts, damit man sie im Nachhinein hören kann, auch wenn man nicht teilnehmen konnte. Coole Idee - lässt sich einfach u.a. mit NotebookLM umsetzen

🍭🍬 Gemischte Tüte

👩‍💻 Tech-News:

  • OpenAI hat bekannt gegeben, dass die Canvas-Funktion, die bisher nur für zahlende Abonnenten verfügbar war, jetzt allen ChatGPT-Nutzern zugänglich ist. Das Tool hatte anfangs viele Probleme, aber anscheinend hat das Team einiges verbessert. Jetzt bietet es Funktionen wie Python-Code-Ausführung, eine größere Textverarbeitung und die Möglichkeit, Grafiken aus Code zu generieren und direkt anzuzeigen. Canvas ist also zurück? Link

  • Apple arbeitet mit Broadcom zusammen, um einen KI-Chip zu entwickeln. Link

  • OpenAI Tag 5: ChatGPT kommt zu Apple Intelligence. Link

  • China hat angeblich einen Sci-Fi-Roboter entwickelt, der aussieht wie der Todesstern. Dieser kugelförmige KI-Polizist soll mit Gesichtserkennung Verbrecher verfolgen – zumindest wenn man Fox News glaubt. Link

  • Eine KI-Firma sorgt mit einer provokanten Werbekampagne für Ärger: „Stop Hiring Humans.“ Könnte das genau die Reaktion sein, die sie wollten? Link

  • Reddit launcht ein KI-gestütztes Such-Feature namens „Reddit Answers“. Das ist tatsächlich sehr krass. 20% aller Google-Suchen in den USA haben “reddit” als Teil der Suchanfrage und Reddits eigene Suche war berüchtigt schlecht. Reddit Answers nutzt Post-Inhalte von Nutzern, um kuratierte Antworten, Empfehlungen und Zusammenfassungen zu liefern. Aktuell nur für ausgewählte Nutzer in den USA verfügbar. Link 

  • X (ehemals Twitter) testete kurzzeitig ein KI-Tool namens „Aurora“ für die Erstellung fotorealistischer Bilder. Es basiert auf Elon Musks Grok-Modell und soll in einer Woche global ausgerollt werden. Link 

  • Nvidia-Aktien fallen nach Chinas Ankündigung einer kartellrechtlichen Untersuchung. Gleichzeitig steigt Alibaba um 7,44 %, nachdem Jack Ma die KI-Potenziale hervorhob. Link 

  • OpenAI teasert eine neue Vision-Funktion für sein Advanced Voice Mode an. Mit ChatGPT wirst Du bald Bilder erkennen und analysieren können. Link 

  • Eine Studie zeigt, dass 40 % der Amerikaner KI im letzten Jahr genutzt haben. Das ist doppelt so schnell wie die Adaption von PCs in der Frühzeit des Internets. Link 

  • GM beendet sein Cruise-Robotaxi-Programm und verlagert den Fokus auf autonome Privatfahrzeuge. Das Unternehmen plant, die Technologien in persönliche Autos zu integrieren. Link 

  • YouTube bringt automatische Videodubbing-Funktion in 9 Sprachen für Partnerkanäle. Das Feature übersetzt Inhalte automatisch zwischen Sprachen wie Englisch, Deutsch, Spanisch und Hindi. Link 

  • Googles neuer Quantenchip löst ein Problem, das einen Supercomputer 10 Septillion Jahre gekostet hätte. Der 105-Qubit-Prozessor "Willow" verbessert die Fehlerkorrektur durch Machine Learning und präzise Kalibrierung. Dies markiert einen Meilenstein in Richtung praktischer Quantenüberlegenheit. Link 

  • Neurowissenschaftler entwickeln KI-Modelle, um menschliche Intelligenz zu entschlüsseln. Die Forschung könnte der Schlüssel sein, um die Funktionsweise des menschlichen Gehirns besser zu verstehen und KI-Systeme weiter zu verbessern. Link 

  • Nvidia und Rigetti kombinieren KI mit Quantencomputing, um neue Durchbrüche zu erzielen. Ein spannender Schritt, der die Möglichkeiten beider Technologien zusammenführt und neue Anwendungen in Bereichen wie Wissenschaft und Industrie ermöglichen soll. Link 

  • Google investiert 20 Mrd. $ in neue Daten- und Energienetzwerke. Ziel: Industriegelände mit Rechenzentren und sauberer Energie – perfekt für KI-Infrastruktur. Link 

👷 Work & Future of Work:

  • Replit hat seinen AI-Assistant für Dev-Projekte offiziell gestartet. Der Assistent hilft bei schnellen Fixes und Design-Optimierungen. Neu: Integration von Bildern/URLs und fließende Nutzung von Plattform-Tools wie Deployment-Services. Link 

🆕 Neue Anwendungsfelder:

  • Ein japanisches Unternehmen hat eine KI-gestützte „menschliche Waschmaschine“ entwickelt. Aber hatten wir das Problem nicht schon längst mit normalen Waschmaschinen gelöst? Link

  • Meta testet ein neues KI-Modell, das mathematische Probleme ohne den Umweg über menschliche Sprache löst. Ergebnis: schnelleres Denken, aber weniger Nachvollziehbarkeit. Link 

  • Ein japanisches Eisenbahnunternehmen entwickelt ein KI-System, das helfen soll, tote Winkel auf Bahnsteigen zu erkennen und potenzielle Gefahren zu reduzieren. Link 

  • Solos bringt AirGo Vision, eine KI-gestützte Smart-Brille mit ChatGPT 4.0. Die Brille erkennt Objekte, übersetzt Text und funktioniert geräteübergreifend. Mit einem Preis ab 149 $ setzt sie auf einfache Bedienbarkeit und Datenschutz. Link 

🔐 Cybersecurity & AI Safety:

  • Mehr Amerika geht nicht! CharacterAI sieht sich einer Klage wegen unangemessener Inhalte gegenüber. Eltern werfen dem Unternehmen vor, dass seine KI negative Botschaften an Kinder vermittelt hat, einschließlich Gewaltfantasien gegen Eltern. Link 

  • ElevenLabs’ KI-Stimmen-Technologie möglicherweise für russische Propaganda genutzt: Ihre leistungsfähigen Voice-Cloning-Tools scheinen in Desinformationskampagnen im Einsatz gewesen zu sein. Link 

  • OpenAI schränkt Zugriff ein: Nur einige wenige Sora-Nutzer dürfen Videos von realen Personen erstellen. Der Test soll Missbrauch verhindern. Link 

  • Fake-Zeitung in Oregon: Scammer nutzten KI, um eine stillgelegte Lokalzeitung wiederzubeleben und gefälschte Inhalte mit gestohlenen Journalisten-Identitäten zu verbreiten. Link 

🏥 Health:

  • DeepHealth zeigt mit einer neuen Studie, dass KI-unterstützte Mammografien das Risiko für übersehene Brustkrebserkrankungen um 21 % senken. KI fungiert als „zweites Augenpaar“ und steigert die Trefferquote bei der Krebserkennung. Randomisierte Studien sollen die Ergebnisse vertiefen. Link 

🧂 Salty Memes:

AI Peanuts Workbook

Vollgepackt mit KI-Wissen, Tools & Tutorials!

Du hast angefangen, dich tiefer mit dem Thema KI zu beschäftigen und willst den nächsten Schritt machen? Dann ist unser offizielles AI Peanuts Workbook genau das Richtige für dich!

Das Workbook ist kein klassisches “Buch”, sondern ein praxisorientiertes, interaktives digitales Dokument. Gegliedert in 3 Teile:

Theorie — Der Textbuch-Teil des Workbooks, in dem wir das Thema KI und seine technischen Grundlagen erklären.
Praxis — Eine Reihe von praktischen Tutorials, mit denen du lernst, KI praktisch anzuwenden (z.B.: ChatGPT Masterprompts, HeyGen, NotebookLM, Midjourney…)
Daten  Datenbanken mit den besten KI-Tools und den spannendsten Firmen im KI-Umfeld.

Du hast Fragen, Anmerkungen oder brauchst unsere Hilfe?
Schreib uns einfach an:
[email protected]

Willkommen!

Hat dir das ein Freund oder eine Kollegin geschickt? Melde dich an und erhalte 2x Woche deine eigene Ausgabe mit den wichtigsten KI News direkt in dein Postfach.

Hilf uns dabei, besser zu werden! Was war schlecht? Was war gut? Wie fandest Du diese Ausgabe von AI Peanuts?

Login oder Abonnieren um an umfragen teilzunehmen.

Bis Dienstag!