Shard: Nova técnica comprime Cache KV em 10 vezes sem perda de precisão

Pesquisadores apresentaram o Shard, um novo método que consegue reduzir em até 10 vezes a memória ocupada pelo cache KV de modelos de linguagem como o Llama-3.1-8B, sem perda mensurável de qualidade em tarefas como busca por agulha no palheiro (NIAH) e LongBench.

O feito é significativo porque o cache KV — a memória de curto prazo que um modelo usa para lembrar o que já processou em um texto — é um dos principais gargalos para processar contextos longos. Para se ter uma ideia, no Llama-3.1-8B, o cache KV para um prompt de 8.000 tokens consome 1 GB de VRAM. Em contextos de 128.000 tokens, esse consumo sobe para 16 GB, mais do que o tamanho do modelo inteiro em disco.

A origem da técnica
O projeto Shard começou como uma tentativa de reimplementar o TurboQuant, um método de compressão teórico do Google Research que prometia compressão de 4 a 6 vezes. No entanto, a equipe percebeu que a abordagem do TurboQuant, por ser genérica, não explorava a estrutura real dos dados do cache.

O “momento Eureka”
A descoberta principal veio ao analisar as matrizes de Chave (K) e Valor (V) separadamente, revelando que elas têm naturezas fundamentalmente diferentes:

Chaves (K) são estruturadas: Ao desfazer o mecanismo de RoPE (que codifica a posição das palavras), a matriz K se revela como sendo de baixa hierarquia (“low-rank”). Usando apenas 192 dos 1024 valores singulares, é possível capturar 99,5% da informação. A solução foi aplicar PCA mais quantização int4.
Valores (V) são aleatórios: A mesma análise em V mostrou um espectro quase plano, sem uma estrutura de baixa hierarquia para explorar. A solução ideal foi aplicar uma rotação de Hadamard seguida de quantização vetorial (VQ).

Além disso, para garantir a fidelidade total em tarefas de atenção, o método reserva 4 tokens “sink” (de alta atenção) e uma janela de 64 tokens recentes em precisão total (FP16), eliminando erros catastróficos de perda de contexto imediato.

Resultados e disponibilidade
A técnica alcança 10× de compressão em contexto de 8K e 11,2× em 32K, com um impacto mínimo na perplexidade (+0,26%) e mantendo 100% de acurácia no teste NIAH. Durante a decodificação contínua, os pesquisadores garantem um caminho sem perdas para novos tokens, usando uma quantização de 8 bits que gerou 750/750 tokens idênticos ao modelo FP16 nos testes.

O código do Shard, uma implementação “drop-in” para HuggingFace, está disponível publicamente como krish1905/shard, com foco em otimização de memória para GPUs NVIDIA. Apesar da economia massiva de espaço, os criadores reconhecem que a velocidade de decodificação atual ainda é cerca de 39-49% do método FP16, sendo este o próximo desafio de engenharia a ser superado.

SuaInternet.COM

Shard: Nova técnica comprime Cache KV em 10 vezes sem perda de precisão

Carlos Araújo

Tags:

Artigos Relacionados

Tendências de Tecnologia 2026: IA, Chips e Robôs – O que esperar

Google lança Gemini Enterprise: IA agora executa tarefas sozinha

Meta anuncia demissões em massa e redireciona foco para IA