Die I/O 2024 von Google stand ganz im Zeichen der künstlichen Intelligenz. Das Unternehmen präsentierte neue KI-gestützte Chatbot-Tools, neue Suchfunktionen und eine Vielzahl von Verbesserungen für Android.

Hier ist eine umfassende Übersicht der wichtigsten Ankündigungen.

Inhalt

Gemini: Die nächste Generation
Verbesserte Fotosuche
Gemini für die Arbeit
Neue Gemini-Modelle
Kreativitätstools
Eine Evolution der Suche
Sicherheit und Schutz
FAQ: Häufig gestellte Fragen zum Thema

Gemini: Die nächste Generation

Gemini Nano mit Multimodalität ist die neueste Version von Googles mobilem großen Sprachmodell. Laut Google-CEO Sundar Pichai kann es „jede Eingabe in jede Ausgabe verwandeln“. Das bedeutet, dass es Informationen aus Texten, Fotos, Audiodateien, Web- oder sozialen Videos sowie Live-Videos von der Kamera deines Handys abrufen und diese Informationen zusammenfassen oder Fragen dazu beantworten kann. Ein beeindruckendes Beispiel zeigte, wie jemand alle Bücher in einem Regal mit der Kamera scannte und die Titel in einer Datenbank speicherte, um sie später wiederzuerkennen.

Gemini 1.5 Pro, das leistungsfähigere, cloudbasierte KI-System von Google, ist ab sofort weltweit für alle Entwickler verfügbar.

Gemini 1.5 Pro vs. GPT-4 Token Vergleich

Im Vergleich zu GPT-4 Turbo oder Claude 3 hat Gemini 1.5 ein Vielfaches an Tokens, kann also auch mehr und vor allem längeren Input verarbeiten. Die neuste GPT-4 Version von OpenAI, GPT-4o hat trotz erheblichen Leistungsverbesserungen auch „nur“ 128 Tausend Tokens, wie GPT-4.

Google Gemini 1.5 Pro — Entwickler haben mit Google Gemini Zugang zu mehr Rechenleistung als bei jeden anderem LLM. Bildquelle: Google

Verbesserte Fotosuche

Google hat robuste visuelle Suchwerkzeuge in Google Fotos integriert. Mit der neuen Funktion namens Ask Photos kannst du Gemini bitten, deine Fotos zu durchsuchen und detailliertere Ergebnisse zu liefern als zuvor. Ein Beispiel: Gib dein Nummernschild ein, und Gemini findet dein Auto in allen jemals aufgenommenen Bildern.

Google Ask Photos KI — Ask Photos bringt einige neue erweiterte Suchfunktionen für Google Fotos. Bildquelle: Google

Jerem Selier, Software-Ingenieur bei Google Photos, betont in einem Blogpost, dass diese Funktion keine Daten deiner Fotos sammelt, um Anzeigen zu schalten oder andere Gemini-KI-Modelle zu trainieren. Ask Photos wird diesen Sommer verfügbar sein.

Gemini für die Arbeit

Google integriert KI auch in seine Office-Tools. Ab heute erscheint ein Gemini-Button im Seitenbereich vieler Google-Apps, darunter Gmail, Google Drive, Docs, Sheets und Slides (als Erstes in den USA). Der Gemini-Helfer kann Fragen beantworten, bei der Erstellung von E-Mails oder Dokumenten helfen oder Zusammenfassungen langer Dokumente oder E-Mail-Threads liefern.

Google Gemini Zusammenfassungen in Gmail — Bildquelle: Google

Für Eltern besonders interessant: Google zeigte, wie KI-Chatbots Schülern bei den Hausaufgaben helfen oder Zusammenfassungen von Elternabenden liefern können. Circle to Search, das etwas früher in diesem Jahr vorgestellt wurde, erhält ebenfalls ein Upgrade und wird bald Schülern bei Schulaufgaben helfen, zum Beispiel beim Lösen von Mathematikproblemen.

Google Gemini hilft — Workspace-Integrationen haben einen großen Teil der Keynote eingenommen… Bildquelle: Google

Auch Apps wie Docs und Gmail ist ein Gemini-basierter KI-Assistent eingebaut. Dieser virtuelle Assistent kann Kommunikation zwischen Kollegen koordinieren, Projektdateien verwalten, To-do-Listen erstellen und Aufgaben verfolgen. Ein Beispiel aus der Präsentation: Der KI-Helfer namens „Chip“ half dabei, die Kommunikation und Zusammenarbeit im Team zu verbessern.

Ein weiteres Highlight war Gems, eine Funktion, die automatisierte Routinen für wiederkehrende Aufgaben ermöglicht (ähnlich zu GPTs für ChatGPT). Du kannst Gems einrichten, um verschiedene Aufgaben zu verwalten, und diese dann per Sprachbefehl oder Textaufforderung ausführen lassen.

Neue Gemini-Modelle

Google hat zwei neue Modelle seiner Gemini-KI vorgestellt, die sich auf unterschiedliche Aufgabentypen konzentrieren. Gemini 1.5 Flash ist die schnellere Version mit geringerer Latenz, die für Aufgaben optimiert ist, bei denen es auf Schnelligkeit ankommt.

Project Astra ist ein visueller Chatbot, eine erweiterte Version von Google Lens. Nutzer können ihre Handykameras verwenden, um Fragen zu allem Möglichen in ihrer Umgebung zu stellen. Astra bietet eine bessere räumliche und kontextuelle Verständnisfähigkeit. Google demonstrierte, wie Astra Dinge wie die Stadt, in der du dich befindest, den Code auf einem Computerbildschirm oder sogar einen originellen Bandnamen für deinen Hund erkennen kann. Diese Funktion funktioniert sowohl über die Kamera deines Handys als auch über in Smart Glasses eingebaute Kameras.

Kreativitätstools

Googles KI-Bemühungen im kreativen Bereich erhielten ebenfalls Aufmerksamkeit. Eine neue KI ist VideoFX, ein generatives Videomodell basierend auf Googles DeepMind-Videogenerator Veo.

Es erstellt 1080p-Videos basierend auf Textaufforderungen und ermöglicht mehr Flexibilität im Produktionsprozess. Google hat auch ImageFX verbessert, einen hochauflösenden Bildgenerator, der weniger digitale Artefakte erzeugt als frühere Modelle und besser auf Benutzereingaben reagiert.

DJ Mode Google MusicFX — Bildquelle: Google

DJ Mode in MusicFX ist ein KI-Musikgenerator, der Musikschleifen und Samples basierend auf Prompts erzeugt. Dieser Modus wurde während der Live-Performance des Musikers Marc Rebillet vorgestellt, die die I/O-Keynote einleitete.

Eine Evolution der Suche

Google, einst als Suchmaschine gestartet, bleibt der führende Akteur in der Suchbranche. Die neuesten KI-Updates markieren einen bedeutenden Wandel für das Kerngeschäft.

Neue Funktionen umfassen eine KI-organisierte Suche, die mehr und lesbarere Suchergebnisse liefert sowie die Möglichkeit, bessere Antworten auf längere Anfragen und Suchen mit Fotos zu erhalten. KI-Überblicke bieten kurze Zusammenfassungen aus mehreren Quellen und erscheinen ganz oben in den Suchergebnissen, sodass du die Antworten direkt erhältst, ohne eine Website besuchen zu müssen. Diese Überblicke sind in der Branche bereits umstritten, da sie einen befürchten lassen, dass Websites (von den dir Daten ursprünglich stammen) deutlich weniger Traffic erzielen und damit auch weniger Einnahmen. Dennoch werden diese neuen KI-Überblicke ab heute in den USA ausgerollt.

Eine neue Funktion namens Multi-Step Reasoning ermöglicht es, mehrere Ebenen von Informationen zu einem Thema zu finden. Google zeigte dies anhand der Reiseplanung: Die Suche in Maps hilft, Hotels zu finden und Reisepläne zu erstellen, schlägt Restaurants vor und unterstützt bei der Essensplanung. Alle Informationen werden organisiert präsentiert.

Eine weitere Demo zeigte, wie Google Lens Fragen zu allem beantworten kann, worauf die Kamera gerichtet ist. Ein Beispiel: Eine Frau versuchte, einen „defekten“ Plattenspieler zu reparieren. Google erkannte, dass der Tonarm nachjustiert werden musste, und bot Anweisungen dazu. Es identifizierte sogar das genaue Modell des Plattenspielers.

Sicherheit und Schutz

Ein neues Betrugserkennungsfeature für Android kann Telefongespräche abhören und verdächtige Sprache erkennen, die auf einen Betrugsversuch hinweist. Falls du in eine Falle tappst, unterbricht das Feature das Gespräch und schlägt vor, aufzulegen. Diese Funktion arbeitet lokal auf dem Gerät, sodass keine Telefongespräche in die Cloud und zu Google übertragen werden.

Google KI erkennt Betrug — Betrugserkennung live. Bildquelle: Google

Google hat auch sein SynthID-Watermarking-Tool erweitert, das Medien kennzeichnet, die mit KI erstellt wurden. Dies hilft, Falschinformationen, Deepfakes oder Phishing-Spam zu erkennen. Das Tool hinterlässt ein unsichtbares Wasserzeichen, das von Software erkannt werden kann. Die neuen Updates erweitern die Funktion auf Inhalte in der Gemini-App, im Web und in Veo-generierten Videos. Google plant, SynthID später im Sommer als Open-Source-Tool zu veröffentlichen.

Mit diesen spannenden Neuerungen untermauert Google seine Position als führendes Unternehmen im Bereich der künstlichen Intelligenz und zeigt, wie KI unser tägliches Leben bereichern kann.

Häufig gestellte Fragen zur Google I/O 2024

Was ist Gemini Nano mit Multimodalität?

Gemini Nano mit Multimodalität ist die neueste Version von Googles mobilem großen Sprachmodell. Es kann Informationen aus Texten, Fotos, Audiodateien, Web- oder sozialen Videos sowie Live-Videos von der Kamera deines Handys abrufen und diese Informationen zusammenfassen oder Fragen dazu beantworten.

Welche neuen Funktionen bietet Google Photos mit Ask Photos?

Mit der neuen Funktion Ask Photos kannst du Gemini bitten, deine Fotos zu durchsuchen und detailliertere Ergebnisse zu liefern. Zum Beispiel kann Gemini anhand deines Nummernschilds dein Auto in allen jemals aufgenommenen Bildern finden.

Wie unterstützt Gemini KI die Google Workspace-Tools?

Ein Gemini-Button erscheint im Seitenbereich vieler Google-Apps wie Gmail, Google Drive, Docs, Sheets und Slides. Der Gemini-Helfer kann Fragen beantworten, bei der Erstellung von E-Mails oder Dokumenten helfen oder Zusammenfassungen langer Dokumente oder E-Mail-Threads liefern.

Was ist Project Astra und welche Funktionen bietet es?

Project Astra ist ein visueller Chatbot, eine erweiterte Version von Google Lens. Nutzer können ihre Handykameras verwenden, um Fragen zu allem Möglichen in ihrer Umgebung zu stellen. Astra bietet eine bessere räumliche und kontextuelle Verständnisfähigkeit und kann Dinge wie Städte, Computercode oder sogar kreative Namensvorschläge erkennen.

Welche neuen Kreativitätstools hat Google vorgestellt?

Google hat VideoFX, einen generativen Videomodell basierend auf DeepMind-Videogenerator Veo, vorgestellt. Zudem wurde ImageFX verbessert, ein hochauflösender Bildgenerator, und DJ Mode in MusicFX, ein KI-Musikgenerator, der Musikschleifen und Samples basierend auf Eingabeaufforderungen erzeugt.

Welche neuen Suchfunktionen bietet Google an?

Google hat KI-organisierte Suche eingeführt, die engere und lesbarere Suchergebnisse liefert, sowie KI-Überblicke, die kurze Zusammenfassungen aus mehreren Quellen bieten. Multi-Step Reasoning ermöglicht es, mehrere Ebenen von Informationen zu einem Thema zu finden, und Google Lens kann Fragen zu allem beantworten, worauf die Kamera gerichtet ist.

Wie schützt Google Nutzer vor Betrugsversuchen?

Ein neues Betrugserkennungsfeature für Android kann Telefongespräche “abhören” und verdächtige Sprache erkennen, die auf einen Betrugsversuch hinweist. Wenn ein Betrugsversuch erkannt wird, unterbricht das Feature das Gespräch und schlägt vor, aufzulegen.

Was ist SynthID und wie hilft es, Falschinformationen zu erkennen?

SynthID ist ein Watermarking-Tool, das Medieninhalte kennzeichnet, die mit KI erstellt wurden. Es hinterlässt ein unsichtbares Wasserzeichen, das von Software erkannt werden kann. Dies hilft, Falschinformationen, Deepfakes oder Phishing-Spam zu erkennen. Die neuen Updates erweitern die Funktion auf Inhalte in der Gemini-App, im Web und in Veo-generierten Videos.