OpenAI GPT Token Guide — Tokensystem erklärt

Vorschau
Token in Sprachmodellen

Was sind OpenAI GPT Tokens?

Token sind die Basiseinheit, die OpenAI GPT-Modelle (einschließlich ChatGPT) verwenden, um die Länge eines Textes zu berechnen - und damit auch den Preis der API zu bestimmen. Sie sind Gruppen von Zeichen, die manchmal mit der Wortanzahl übereinstimmen, aber nicht immer. Wie viele Token ein Text lang ist, hängt von der Anzahl der Zeichen, der Textsprache und von Satzzeichen oder Emojis ab. Somit ist die Anzahl an Token häufig größer, als die Anzahl an Wörtern.

Wie zähle ich Tokens in meinem Text?

Um genau zu wissen, wie viele Tokens dein Text lang ist, muss dein Text “tokenisiert” werden. Das ist gar nicht so schwierig, wie es klingt. Du kannst einfach dazu den offiziellen Tokenizer von OpenAI verwenden.

Tokenizer Tool von OpenAI

Der offizielle Tokenizer von OpenAI: In diesem Fall entsprechen 7 Wörter 13 Tokens.

Beachte, dass der Tokenizer für die GPT-3 Modelle gebaut wurde und nicht für neuere Modelle (GPT-4 bzw. ChatGPT Plus) ausgelegt ist. Wie dein Text “tokenisiert” wird, variiert nämlich zwischen den verschiedenen GPT-Modellen von OpenAI. Von OpenAI gibt es noch kein Update, ob und wann ein Tokenizer-Tool für GPT-4-Modelle veröffentlicht wird.

Faustformel für das Verhältnis zwischen Wörtern und Token

Da alle Zeichen eines Wortes zum Teil unterschiedlich zählen, ist das Verhältnis von Wörtern zu Token sprachabhängig. Ein Beispiel:

Tokenizer Englisches Wort

Englisch: “hello”

Tokenizer Deutsch

Deutsch: “hallo”

Tokenizer Französisch

Französisch: “héllo” (fiktives Wort mit accent aigu)

Trotz gleicher Zeichenanzahl ist der “Tokenverbrauch” für Deutsch und Französisch größer, als der für das englische “Hello”. Selbstverständlich braucht man auch in anderen Sprachen mehr Zeichen oder Wörter, um etwas zu beschreiben, sodass sich die Tokenanzahl dadurch nochmals erhöht.

Bewährte Faustregel für das Verhältnis

Im Englischen: 1 Wort ≈ 1,3 Token

Im Deutschen: 1 Wort ≈ 1,8 Token

Im Spanischen: 1 Wort ≈ 2 Zeichen

Im Französischen: 1 Wort ≈ 2 Zeichen

Um mehr zu dem Verhältnis zwischen Wort und Token und dem dazugehörigen OpenAI API Preis zu erfahren, nutze unseren OpenAI API Preisrechner.

Wie viele Token brauchen Satzzeichen, Sonderzeichen und Emojis?

Satzzeichen (,:;?!) = 1 Token

Sonderzeichen (§√×°«) = 1 bis 3 Token

Emojis (😉😎😁) = 2 bis 3 Token

Wie hoch ist der Preis eines Tokens?

Der Preis eines Tokens hängt vom jeweiligen OpenAI GPT-Modell ab. Nachfolgend findest du den Preis für jeweils 1000 Token:

GPT-Modell Technischer Name Preis für 1000 Tokens (Prompt) Preis für 1000 Tokens (Antwort)
GPT-4 (32k) gpt-4-32k-0613 USD 0,0600 USD 0,1200
GPT-4 (8k) gpt-4-0613 USD 0,0300 USD 0,0600
ChatGPT (16k) gpt-3.5-turbo-16k-0613 USD 0,0030 USD 0,0040
ChatGPT (Standard) gpt-3.5-turbo-0613 USD 0,0015 USD 0,0020
Davinci text-davinci-003 USD 0,0200 USD 0,0200
Curie text-curie-001 USD 0,0020 USD 0,0020
Babbage text-babbage-001 USD 0,0005 USD 0,0005
Ada text-ada-001 USD 0,0004 USD 0,0004

Aktueller Stand | (x) max-Token-Angabe der GPT-Modelle.

Was bedeutet der max_tokens Parameter?

Max_tokens ist die maximale Anzahl von Token, die bei einer Anfrage an die OpenAI API von den GPT-Modellen generiert werden soll.

GPT-Modell Technischer Name Max. Tokens
GPT-4 (32k) gpt-4-32k- 32.768
GPT-4 (8k) gpt-4-v 8.192
ChatGPT (16k) gpt-3.5-turbo-16k-v 16.384
ChatGPT (Standard - 4k) gpt-3.5-turbo-v 4.096
Davinci (4k) text-davinci-003 4.097
Curie (2k) text-curie-001 2.049
Babbage (2k) text-babbage-001 2.049
Ada (2k) text-ada-001 2.049

Quelle: OpenAI Documentation | -v steht für die aktuelle Versionsnummer

Es sollte folgende Regel beachtet werden:

prompt_tokens + max_tokens ≤ model limit

Beachte, dass wie erwähnt Tokens ≠ Wörter sind. Benutze zum groben Überschlagen die Faustregeln oben.

Wieso ist bei mir die Antwort der GPT-API abgeschnitten?

Wenn die Antwort von der OpenAI API abgeschnitten ist, bedeutet das höchstwahrscheinlich, dass der von dir angegebene max-tokens Parameter nicht groß genug ist. Du solltest den max-tokens Parameter erhöhen.

Wörter und Token Beispiele (GPT-3)

Prompt: Was sind ChatGPT Token?

ChatGPT-Token sind die grundlegenden Einheiten, in die der Text für die Verarbeitung durch das ChatGPT-Modell aufgeteilt wird. Ein Token kann ein einzelnes Zeichen, eine Wortgruppe oder sogar ein Teil eines Wortes sein, je nachdem, wie der Text aufgebaut ist. Das Modell analysiert und verarbeitet den Text auf der Ebene dieser einzelnen Tokens.

59 Wörter · 137 Tokens · Verhältnis: 2,32


Prompt: Schreibe 5 Nachrichtenschlagzeilen

Natürlich! Hier sind fünf Nachrichtenschlagzeilen:

  1. "Neue Studie zeigt: Sportliche Aktivitäten steigern die geistige Leistungsfähigkeit"

  2. "Regierung beschließt umfassende Klimaschutzmaßnahmen zur Reduzierung der Treibhausgasemissionen"

  3. "Wissenschaftler entdecken neue Behandlungsmethode für bisher unheilbare Krankheit"

  4. "Internationales Gipfeltreffen vereinbart Maßnahmen zur Förderung des globalen Friedens"

  5. "Innovative Technologie revolutioniert die Art und Weise, wie wir kommunizieren"

Diese Schlagzeilen dienen nur zu illustrativen Zwecken und sind nicht auf tatsächliche Ereignisse bezogen.

81 Wörter · 260 Tokens · Verhältnis: 3,21


Prompt: Schreibe eine Überschrift für die Landing-Page einer Schwimmschule.

"Tauche ein in ein neues Schwimmerlebnis: Entdecke unsere Schwimmschule!"

19 Wörter · 52 Tokens · Verhältnis: 2,74


Diese Beispiele zeigen, dass es sich bei der Faustregel auch nur um eine Faustregel handelt und ein festes Verhältnis nicht festgelegt werden kann.

Video zum Artikel

Weiterführende Artikel

Zurück
Zurück

Google Bard: KI-Chatbot startet in Deutschland Mit Updates

Weiter
Weiter

ChatGPT Leak - “My Files”: Dateien bald in ChatGPT hochladen