Os tokens são as unidades básicas usadas pelos modelos para representar o texto da linguagem natural e também as unidades que usamos para cobrança. Eles podem ser entendidos intuitivamente como 'personagens' ou 'palavras'. Normalmente, uma palavra chinesa, uma palavra em inglês, um número ou um símbolo é contado como um token.Geralmente, a taxa de conversão entre os tokens no modelo e o número de caracteres é aproximadamente como seguinte:
1 Personagem em inglês ≈ 0,3 token.
1 caractere chinês ≈ 0,6 token.
No entanto, devido aos diferentes métodos de tokenização usados por diferentes modelos, as taxas de conversão podem variar. O número real de tokens processado cada vez é baseado no retorno do modelo, que você pode visualizar nos resultados de uso.
Você pode executar o código do tokenizador de demonstração no seguinte pacote ZIP para calcular o uso do token para o seu intput/saída.deepseek_v3_tokenizer.zip