Cache de contexto

O cache de contexto da API Deepseek na tecnologia de disco é ativado por padrão para todos os usuários, permitindo que eles se beneficiem sem precisar modificar seu código.

Cada solicitação do usuário acionará a construção de um cache de disco rígido. Se solicitações subsequentes tiverem prefixos sobrepostos com solicitações anteriores, a peça sobreposta só será buscada no cache, que conta como um "acerto de cache".

NOTA: Entre duas solicitações, apenas a peça de prefixo repetida pode desencadear um "acerto de cache". Consulte o exemplo abaixo para obter mais detalhes.

Exemplo 1: Perguntas e respostas de texto longo

Primeiro pedido

messages: [
    {"role": "system", "content": "You are an experienced financial report analyst..."}
    {"role": "user", "content": "<financial report content>\n\nPlease summarize the key information of this financial report."}
]

Segundo pedido

messages: [
    {"role": "system", "content": "You are an experienced financial report analyst..."}
    {"role": "user", "content": "<financial report content>\n\nPlease analyze the profitability of this financial report."}
]

No exemplo acima, ambas as solicitações têm o mesmo prefixo , que é a mensagem system + <financial report content> na mensagem user . Durante a segunda solicitação, essa parte do prefixo contará como um "acerto de cache".

Exemplo 2: Conversação de várias rodadas

Primeiro pedido

messages: [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "What is the capital of China?"}
]

Segundo pedido

messages: [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "What is the capital of China?"},
    {"role": "assistant", "content": "The capital of China is Beijing."},
    {"role": "user", "content": "What is the capital of the United States?"}
]

Neste exemplo, a segunda solicitação pode reutilizar a mensagem inicial system e a mensagem user da primeira solicitação, que contará como um "cache acertado".

Exemplo 3: Usando o aprendizado de poucos anos

Em aplicações práticas, os usuários podem aprimorar o desempenho de saída do modelo por meio da aprendizagem de poucos anos. A aprendizagem de poucas fotos envolve fornecer alguns exemplos na solicitação para permitir que o modelo aprenda um padrão específico. Como os poucos tiro geralmente fornecem o mesmo prefixo de contexto, o custo de poucos tiro é significativamente reduzido com o suporte ao cache do contexto.

** Primeiro pedido**

messages: [    
    {"role": "system", "content": "You are a history expert. The user will provide a series of questions, and your answers should be concise and start with `Answer:`"},
    {"role": "user", "content": "In what year did Qin Shi Huang unify the six states?"},
    {"role": "assistant", "content": "Answer: 221 BC"},
    {"role": "user", "content": "Who was the founder of the Han Dynasty?"},
    {"role": "assistant", "content": "Answer: Liu Bang"},
    {"role": "user", "content": "Who was the last emperor of the Tang Dynasty?"},
    {"role": "assistant", "content": "Answer: Li Zhu"},
    {"role": "user", "content": "Who was the founding emperor of the Ming Dynasty?"},
    {"role": "assistant", "content": "Answer: Zhu Yuanzhang"},
    {"role": "user", "content": "Who was the founding emperor of the Qing Dynasty?"}
]

Segundo pedido

messages: [    
    {"role": "system", "content": "You are a history expert. The user will provide a series of questions, and your answers should be concise and start with `Answer:`"},
    {"role": "user", "content": "In what year did Qin Shi Huang unify the six states?"},
    {"role": "assistant", "content": "Answer: 221 BC"},
    {"role": "user", "content": "Who was the founder of the Han Dynasty?"},
    {"role": "assistant", "content": "Answer: Liu Bang"},
    {"role": "user", "content": "Who was the last emperor of the Tang Dynasty?"},
    {"role": "assistant", "content": "Answer: Li Zhu"},
    {"role": "user", "content": "Who was the founding emperor of the Ming Dynasty?"},
    {"role": "assistant", "content": "Answer: Zhu Yuanzhang"},
    {"role": "user", "content": "When did the Shang Dynasty fall?"},        
]

Neste exemplo, 4-shots são usados. A única diferença entre os dois pedidos é a última pergunta. A segunda solicitação pode reutilizar o conteúdo das 4 primeiras rodadas de diálogo desde a primeira solicitação, que contará como um "acerto de cache".

Verificando o status de acerto do cache

Na resposta da API Deepseek, adicionamos dois campos na seção usage para refletir o status de acerto do cache da solicitação:

Prompt_cache_hit_tokens: o número de tokens na entrada dessa solicitação que resultou em um acerto de cache (0,1 yuan por milhão de tokens).

Prompt_cache_miss_tokens: o número de tokens na entrada dessa solicitação que não resultou em um acerto de cache (1 yuan por milhão de tokens).

Randomness Cache de disco rígido e aleatoriedade de saída

O cache do disco rígido corresponde apenas à parte do prefixo da entrada do usuário. A saída ainda é gerada através da computação e inferência, e é influenciada por parâmetros como a temperatura, introduzindo a aleatoriedade.

Notas adicionais

O sistema de cache usa 64 tokens como uma unidade de armazenamento; O conteúdo inferior a 64 fichas não será armazenado em cache.

O sistema de cache funciona com base no "melhor esforço" e não garante uma taxa de acerto de cache de 100%.

A construção de cache leva segundos. Uma vez que o cache não estiver mais em uso, ele será limpo automaticamente, geralmente dentro de algumas horas a alguns dias.

Exemplo 1: Perguntas e respostas de texto longo#

Exemplo 2: Conversação de várias rodadas#

Exemplo 3: Usando o aprendizado de poucos anos#

Verificando o status de acerto do cache#

Randomness Cache de disco rígido e aleatoriedade de saída#

Notas adicionais#

Exemplo 1: Perguntas e respostas de texto longo

Exemplo 2: Conversação de várias rodadas

Exemplo 3: Usando o aprendizado de poucos anos

Verificando o status de acerto do cache

Randomness Cache de disco rígido e aleatoriedade de saída

Notas adicionais