OpenAI o1-mini: das fortschrittlichste und kosteneffizienteste KI-Modell

OpenAI hat o1-mini veröffentlicht, ein kosteneffizientes KI-Modell, das erhebliche Fortschritte in der KI-Argumentation bietet. o1-mini überzeugt besonders in den MINT-Fächern (Mathematik, Informatik, Naturwissenschaften und Technik), insbesondere in Mathematik und Programmierung, und kommt dabei nahezu an die Leistung des größeren Modells OpenAI o1 heran.

Beiträge von OpenAI o1-mini

  • Kosteneffizienz: o1-mini ist um 80% günstiger als OpenAI o1-preview und somit eine schnellere und kostengünstigere Alternative für Anwendungen, die logisches Denken erfordern, aber nicht auf umfangreiches Weltwissen angewiesen sind.

  • Verfügbarkeit: Ab sofort steht o1-mini für API-Nutzer der Stufe 5 zur Verfügung. Nutzer von ChatGPT Plus, Team, Enterprise und Edu können o1-mini als Alternative zu o1-preview nutzen und profitieren von höheren Ratenlimits und geringerer Latenz.

Optimiert für STEM-Reasoning

Während große Sprachmodelle wie o1 auf umfangreichen Textdatensätzen vortrainiert sind und ein breites Weltwissen besitzen, können sie für reale Anwendungen teuer und langsam sein. Im Gegensatz dazu ist o1-mini ein kleineres Modell, das speziell für logisches Denken in den MINT-Fächern optimiert wurde. Nach dem Training mit derselben hochrechenintensiven Reinforcement-Learning-Pipeline wie o1 erreicht o1-mini auf vielen nützlichen Aufgaben vergleichbare Leistungen, ist dabei jedoch deutlich kosteneffizienter.

Quelle: OpenAI

Leistung und Effizienz

Bei der Bewertung anhand von Benchmarks, die Intelligenz und logisches Denken erfordern, schneidet o1-mini im Vergleich zu o1-preview und o1 hervorragend ab. Allerdings zeigt o1-mini auf Aufgaben, die nicht auf MINT-Faktenwissen beruhen, eine geringere Leistung.

Mathematik

In der Highschool-Mathematikprüfung AIME 2024 erzielte o1-mini eine Erfolgsquote von 70,0%, was in etwa der Leistung von o1 (74,4%) entspricht und o1-preview (44,6%) übertrifft. Mit dieser Punktzahl (ca. 11 von 15 Fragen richtig) gehört o1-mini zu den besten 500 Highschool-Schülern in den USA.

Programmierung

Auf der Wettbewerbsplattform Codeforces erreichte o1-mini eine Elo-Bewertung von 1650, was wiederum mit o1 (1673) vergleichbar und höher als o1-preview (1258) ist. Dieser Elo-Score platziert das Modell im 86. Perzentil der Programmierer, die auf Codeforces konkurrieren. o1-mini zeigt auch hervorragende Leistungen im HumanEval-Coding-Benchmark und bei Cybersecurity Capture the Flag Challenges (CTFs) auf Highschool-Niveau.

Vergleich der Elo-Bewertungen auf Codeforces:

  • o1-mini: 1650

  • o1-preview: 1258

  • GPT-4o: 808

Quelle: OpenAI

STEM-Benchmarks

In einigen akademischen Benchmarks, die logisches Denken erfordern, wie GPQA (Science) und MATH-500, übertrifft o1-mini GPT-4o. Allerdings schneidet o1-mini bei Aufgaben wie MMLU schlechter ab und liegt hinter o1-preview im GPQA-Benchmark zurück, was auf das fehlende umfangreiche Weltwissen zurückzuführen ist.

Leistung auf MATH-500 (0-shot CoT):

  • o1-mini: 90,0%

  • o1-preview: 85,5%

  • o1: 94,8%

Quelle: OpenAI

Menschliche Präferenzbewertung

Es wurden menschliche Bewerter eingesetzt, um o1-mini mit GPT-4o bei anspruchsvollen, offenen Eingabeaufforderungen in verschiedenen Domänen zu vergleichen, unter Verwendung derselben Methodik wie beim Vergleich von o1-preview mit GPT-4o. Ähnlich wie o1-preview wird o1-mini in Domänen mit hohem Bedarf an logischem Denken gegenüber GPT-4o bevorzugt, jedoch nicht in sprachfokussierten Domänen.

Bevorzugung von o1-mini gegenüber GPT-4o in verschiedenen Domänen:

  • Mathematische Berechnungen

  • Datenanalyse

  • Computerprogrammierung

  • Persönliches Schreiben (weniger bevorzugt)

Quelle: OpenAI

Modellgeschwindigkeit

Ein konkretes Beispiel zeigt, dass o1-mini im Vergleich zu GPT-4o und o1-preview eine Antwort auf eine Wort-Logik-Frage etwa 3-5 Mal schneller liefert. Während GPT-4o nicht korrekt antwortete, gaben sowohl o1-mini als auch o1-preview die richtige Antwort, wobei o1-mini deutlich schneller war.

Quelle: OpenAI

Sicherheitsaspekte

o1-mini wurde unter Verwendung derselben Ausrichtungs- und Sicherheitstechniken wie o1-preview trainiert. Das Modell weist eine 59% höhere Robustheit gegen Jailbreak-Versuche auf einem internen Datensatz im Vergleich zu GPT-4o auf. Vor der Bereitstellung wurden die Sicherheitsrisiken von o1-mini sorgfältig unter Anwendung desselben Vorbereitungsansatzes, externen Red-Teams und Sicherheitsevaluierungen wie bei o1-preview bewertet. Detaillierte Ergebnisse dieser Bewertungen sind in der beigefügten Systemkarte verfügbar.

Sicherheitsmetriken:

Metrik GPT-4o o1-mini
% Sichere Abschlüsse bei schädlichen Eingaben (Standard)
  0,99 0,99
% Sichere Abschlüsse bei schädlichen Eingaben (Herausfordernd: Jailbreaks & Grenzfälle)
  0,714 0,932
% Compliance bei gutartigen Grenzfällen („Keine Überverweigerung“)
  0,91 0,923
Goodness@0.1 StrongREJECT Jailbreak-Evaluierung (Souly et al. 2024)
  0,22 0,83
Menschliche Jailbreak-Evaluierung
  0,77 0,95

Einschränkungen und Ausblick

Aufgrund der Spezialisierung auf MINT-Reasoning-Fähigkeiten ist das Faktenwissen von o1-mini in nicht-MINT-Themen wie Daten, Biografien und Trivia mit dem kleinerer Sprachmodelle wie GPT-4o mini vergleichbar. Diese Einschränkungen sollen in zukünftigen Versionen verbessert werden, ebenso wie Experimente zur Erweiterung des Modells auf andere Modalitäten und Spezialgebiete außerhalb der MINT-Fächer.

Fazit

OpenAI o1-mini stellt einen bedeutenden Fortschritt in der kosteneffizienten KI-Argumentation dar. Es bietet beeindruckende Leistungen in Mathematik und Programmierung und ist dabei schneller und kostengünstiger als größere Modelle. Für Anwendungen, die logisches Denken erfordern, aber nicht auf umfangreiches Weltwissen angewiesen sind, ist o1-mini eine hervorragende Wahl. Zukünftige Entwicklungen versprechen weitere Verbesserungen und Erweiterungen in verschiedenen Domänen.

Zurück
Zurück

API Tokens und Preise - OpenAI o1-preview und o1-mini Beta

Weiter
Weiter

Benchmarks OpenAI o1 vs. GPT-4o - Was steckt hinter dem Modell?