DeepSeek API
🇵🇹 Portuguese
  • 🇺🇸 English
  • 🇯🇵 Japanese
  • 🇰🇷 Korea
  • 🇵🇹 Portuguese
  1. API Guides
DeepSeek API
🇵🇹 Portuguese
  • 🇺🇸 English
  • 🇯🇵 Japanese
  • 🇰🇷 Korea
  • 🇵🇹 Portuguese
  • Comece rapidamente
    • Sua primeira chamada de API
    • Modelos e preços
    • O parâmetro de temperatura
    • Tokens e uso de token
    • LIMITE
    • Códigos de erro
  • ReferÃência da APl
    • Introdução
    • Crie conclusão de bate -papo
      POST
    • Crie FIM Conclusão (Beta)
      POST
    • Lista modelos
      GET
    • Obtenha o saldo do usuário
      GET
  • API Guides
    • Modelo de raciocínio (Deepseek Reautner)
    • Várias rodadas de conversas
    • Conclusão do prefixo de bate -papo (beta)
    • FIM Conclusão (Beta)
    • Saída JSON
    • Chamada de função
    • Cache de contexto
  • FAQ
    • FAQ
  1. API Guides

Cache de contexto

O cache de contexto da API Deepseek na tecnologia de disco é ativado por padrão para todos os usuários, permitindo que eles se beneficiem sem precisar modificar seu código.
Cada solicitação do usuário acionará a construção de um cache de disco rígido. Se solicitações subsequentes tiverem prefixos sobrepostos com solicitações anteriores, a peça sobreposta só será buscada no cache, que conta como um "acerto de cache".
NOTA: Entre duas solicitações, apenas a peça de prefixo repetida pode desencadear um "acerto de cache". Consulte o exemplo abaixo para obter mais detalhes.

Exemplo 1: Perguntas e respostas de texto longo#

Primeiro pedido
messages: [
    {"role": "system", "content": "You are an experienced financial report analyst..."}
    {"role": "user", "content": "<financial report content>\n\nPlease summarize the key information of this financial report."}
]
Segundo pedido
messages: [
    {"role": "system", "content": "You are an experienced financial report analyst..."}
    {"role": "user", "content": "<financial report content>\n\nPlease analyze the profitability of this financial report."}
]
No exemplo acima, ambas as solicitações têm o mesmo prefixo , que é a mensagem system + <financial report content> na mensagem user . Durante a segunda solicitação, essa parte do prefixo contará como um "acerto de cache".

Exemplo 2: Conversação de várias rodadas#

Primeiro pedido
messages: [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "What is the capital of China?"}
]
Segundo pedido
messages: [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "What is the capital of China?"},
    {"role": "assistant", "content": "The capital of China is Beijing."},
    {"role": "user", "content": "What is the capital of the United States?"}
]
Neste exemplo, a segunda solicitação pode reutilizar a mensagem inicial system e a mensagem user da primeira solicitação, que contará como um "cache acertado".

Exemplo 3: Usando o aprendizado de poucos anos#

Em aplicações práticas, os usuários podem aprimorar o desempenho de saída do modelo por meio da aprendizagem de poucos anos. A aprendizagem de poucas fotos envolve fornecer alguns exemplos na solicitação para permitir que o modelo aprenda um padrão específico. Como os poucos tiro geralmente fornecem o mesmo prefixo de contexto, o custo de poucos tiro é significativamente reduzido com o suporte ao cache do contexto.
** Primeiro pedido**
messages: [    
    {"role": "system", "content": "You are a history expert. The user will provide a series of questions, and your answers should be concise and start with `Answer:`"},
    {"role": "user", "content": "In what year did Qin Shi Huang unify the six states?"},
    {"role": "assistant", "content": "Answer: 221 BC"},
    {"role": "user", "content": "Who was the founder of the Han Dynasty?"},
    {"role": "assistant", "content": "Answer: Liu Bang"},
    {"role": "user", "content": "Who was the last emperor of the Tang Dynasty?"},
    {"role": "assistant", "content": "Answer: Li Zhu"},
    {"role": "user", "content": "Who was the founding emperor of the Ming Dynasty?"},
    {"role": "assistant", "content": "Answer: Zhu Yuanzhang"},
    {"role": "user", "content": "Who was the founding emperor of the Qing Dynasty?"}
]
Segundo pedido
messages: [    
    {"role": "system", "content": "You are a history expert. The user will provide a series of questions, and your answers should be concise and start with `Answer:`"},
    {"role": "user", "content": "In what year did Qin Shi Huang unify the six states?"},
    {"role": "assistant", "content": "Answer: 221 BC"},
    {"role": "user", "content": "Who was the founder of the Han Dynasty?"},
    {"role": "assistant", "content": "Answer: Liu Bang"},
    {"role": "user", "content": "Who was the last emperor of the Tang Dynasty?"},
    {"role": "assistant", "content": "Answer: Li Zhu"},
    {"role": "user", "content": "Who was the founding emperor of the Ming Dynasty?"},
    {"role": "assistant", "content": "Answer: Zhu Yuanzhang"},
    {"role": "user", "content": "When did the Shang Dynasty fall?"},        
]
Neste exemplo, 4-shots são usados. A única diferença entre os dois pedidos é a última pergunta. A segunda solicitação pode reutilizar o conteúdo das 4 primeiras rodadas de diálogo desde a primeira solicitação, que contará como um "acerto de cache".

Verificando o status de acerto do cache#

Na resposta da API Deepseek, adicionamos dois campos na seção usage para refletir o status de acerto do cache da solicitação:
1.
Prompt_cache_hit_tokens: o número de tokens na entrada dessa solicitação que resultou em um acerto de cache (0,1 yuan por milhão de tokens).
2.
Prompt_cache_miss_tokens: o número de tokens na entrada dessa solicitação que não resultou em um acerto de cache (1 yuan por milhão de tokens).

Randomness Cache de disco rígido e aleatoriedade de saída#

O cache do disco rígido corresponde apenas à parte do prefixo da entrada do usuário. A saída ainda é gerada através da computação e inferência, e é influenciada por parâmetros como a temperatura, introduzindo a aleatoriedade.

Notas adicionais#

1.
O sistema de cache usa 64 tokens como uma unidade de armazenamento; O conteúdo inferior a 64 fichas não será armazenado em cache.
2.
O sistema de cache funciona com base no "melhor esforço" e não garante uma taxa de acerto de cache de 100%.
3.
A construção de cache leva segundos. Uma vez que o cache não estiver mais em uso, ele será limpo automaticamente, geralmente dentro de algumas horas a alguns dias.
Previous
Chamada de função
Next
FAQ
Built with