Gemini 2.5 Pro im Test: Ein erster Eindruck

2. April 2025
ℹ️Hinweis zur Quelle

Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
Putting Gemini 2.5 Pro through its paces.

Gemini 2.5 Pro im Test: Ein erster Eindruck

Google hat kürzlich das neue Modell Gemini 2.5 Pro vorgestellt, das als "Denkmodell" für komplexe Aufgaben konzipiert wurde. Erste Tests deuten darauf hin, dass es sich um ein leistungsstarkes Modell handelt.

Erste Experimente

Ein erster Test bestand darin, Gemini 2.5 Pro zu bitten, eine SVG-Grafik eines Pelikans zu erstellen, der Fahrrad fährt. Diese Aufgabe gilt als schwierig, da Pelikane anatomisch ungeeignet für das Fahrradfahren sind. Das Ergebnis war jedoch beachtlich.

Ein weiteres Experiment umfasste die Verarbeitung einer Audiodatei, in der eine Person mit russischem Akzent auf Spanisch spricht. Gemini 2.5 Pro transkribierte den Text und fügte Zeitstempel hinzu. Die Genauigkeit der Zeitstempel wurde bestätigt.

Audio-Transkription und Schemas

Die Audiofähigkeiten von Gemini 2.5 Pro wurden weiter getestet, indem ein zehnminütiger Podcast-Ausschnitt transkribiert wurde. Mithilfe eines benutzerdefinierten Schemas wurden Sprechernamen und Zeitstempel extrahiert. Auch hier erwies sich die Genauigkeit als hoch. Die Unterstützung langer Kontexte deutet darauf hin, dass auch längere Audiodateien verarbeitet werden können.

Bounding Boxes für Bilder

Frühere Gemini-Modelle unterstützten bereits Bounding Boxes, mit denen Objekte in Bildern erkannt und umrahmt werden können. Ein vorhandenes Tool wurde aktualisiert, um Gemini 2.5 Pro zu unterstützen. Bei einem Test mit einem Bild von Pelikanen funktionierte die Erkennung ausgezeichnet.

Weitere Eigenschaften des Modells

Gemini 2.5 Pro zeichnet sich durch folgende Eigenschaften aus:

  • Hohe Anzahl an Output Token: 64.000
  • Wissensstand: Januar 2025

Stärken des Modells

Die Gemini-Modellfamilie, und insbesondere Gemini 2.5 Pro, bieten einige besondere Fähigkeiten:

  • Lange Kontextlänge (bis zu 1 Million Token)
  • Audio-Eingabe
  • Genaue Bounding Box-Erkennung für Bilder

Beeindruckende Ergebnisse im Bereich Code

Gemini 2.5 Pro zeigte sich auch bei der Bearbeitung von Code als sehr leistungsfähig. Es konnte komplexe Änderungen in einer Codebasis erkennen und umsetzen. Ein Beispiel war die Implementierung einer neuen Funktion für einen Blog, bei der Gemini 2.5 Pro in der Lage war, die notwendigen Änderungen in 18 Dateien zu identifizieren und den Implementierungsprozess deutlich zu beschleunigen.

Das Modell erwies sich als wertvolle Unterstützung bei der Lösung von Architekturproblemen, indem es nützliche Vorschläge lieferte.

Fazit

Gemini 2.5 Pro erweist sich als vielversprechendes Modell mit Stärken in verschiedenen Bereichen, insbesondere bei Audioverarbeitung, Bilderkennung und Codeerstellung. Die lange Kontextlänge und die Fähigkeit, komplexe Aufgaben zu bewältigen, eröffnen neue Möglichkeiten. Es bleibt abzuwarten, welche weiteren Möglichkeiten dieses Modell bietet.


Die Kommentare sind geschlossen.