Tokens e uso de token

Os tokens são as unidades básicas usadas pelos modelos para representar o texto da linguagem natural e também as unidades que usamos para cobrança. Eles podem ser entendidos intuitivamente como 'personagens' ou 'palavras'. Normalmente, uma palavra chinesa, uma palavra em inglês, um número ou um símbolo é contado como um token.

Geralmente, a taxa de conversão entre os tokens no modelo e o número de caracteres é aproximadamente como seguinte:

1 Personagem em inglês ≈ 0,3 token.

1 caractere chinês ≈ 0,6 token.

No entanto, devido aos diferentes métodos de tokenização usados por diferentes modelos, as taxas de conversão podem variar. O número real de tokens processado cada vez é baseado no retorno do modelo, que você pode visualizar nos resultados de uso.

Calcule o uso de token offline

Você pode executar o código do tokenizador de demonstração no seguinte pacote ZIP para calcular o uso do token para o seu intput/saída.

deepseek_v3_tokenizer.zip

Calcule o uso de token offline#

Calcule o uso de token offline