Gemma 4 fica até 3x mais rápido com nova tecnologia de Multi-Token Prediction do Google

Google revoluciona velocidade do Gemma 4 com tecnologia de previsão de múltiplos tokens

Nova técnica de speculative decoding promete acelerar inferência de IA em até 3 vezes, mantendo a mesma qualidade de resposta e abrindo caminho para aplicações mais responsivas em dispositivos locais e na nuvem.

O Google anunciou nesta terça-feira (5) uma atualização significativa para sua família de modelos de IA open source Gemma 4: os Multi-Token Prediction (MTP) drafters. A tecnologia promete acelerar em até 3 vezes a velocidade de inferência dos modelos, sem qualquer degradação na qualidade das respostas ou na capacidade de raciocínio lógico.

Lançado há poucas semanas, o Gemma 4 já acumula mais de 60 milhões de downloads, consolidando-se como um dos modelos de linguagem mais capazes e acessíveis para desenvolvedores. Agora, com os MTP drafters, o Google busca eliminar um dos principais gargalos para implantação em produção: a velocidade de inferência.

Como funciona a aceleração por speculative decoding

A inovação por trás dos MTP drafters está em uma técnica chamada “speculative decoding” (decodificação especulativa), desenvolvida por pesquisadores do Google. O método funciona pareando o modelo principal do Gemma 4 com um modelo “rascunhador” mais leve e especializado.

Enquanto os modelos de linguagem tradicionais geram texto token por token de forma autoregressiva – um processo lento e intensivo em memória – o sistema MTP utiliza computação ociosa para prever vários tokens futuros de uma só vez. O modelo principal então verifica todos esses tokens sugeridos em paralelo, aceitando sequências inteiras em uma única passagem quando concordam com as previsões.

“O processador passa a maior parte do tempo movendo bilhões de parâmetros da VRAM para as unidades de computação apenas para gerar um único token. Isso leva a uma subutilização da computação e alta latência, especialmente em hardware de consumo”, explicam Olivier Lacombe, Diretor de Gerenciamento de Produto, e Maarten Grootendorst, Engenheiro de Relações com Desenvolvedores, no anúncio oficial.

Impacto prático para desenvolvedores

Para desenvolvedores que constroem desde assistentes de programação até agentes autônomos e aplicações mobile, cada milissegundo conta. A nova tecnologia oferece benefícios tangíveis em diferentes cenários:

Responsividade aprimorada: Redução drástica da latência para aplicações de chat em tempo quase real, aplicações de voz imersivas e fluxos de trabalho agentivos.

Desenvolvimento local superpotente: Execução dos modelos Gemma 4 26B MoE e 31B Dense em computadores pessoais e GPUs de consumo com velocidade sem precedentes, permitindo fluxos de trabalho complexos offline.

Performance otimizada em dispositivos de borda: Maximização da utilidade dos modelos E2B e E4B em dispositivos edge, gerando saídas mais rapidamente e preservando a vida útil da bateria.

Qualidade preservada: Como o modelo principal do Gemma 4 mantém a verificação final, os desenvolvedores obtêm o mesmo raciocínio e precisão de classe frontal, apenas entregues significativamente mais rápido.

Otimizações específicas por hardware

O Google também revelou otimizações específicas para diferentes hardwares. Em testes realizados com NVIDIA RTX PRO 6000, o Gemma 4 26B demonstrou redução pela metade do tempo de espera com MTP, mantendo a mesma qualidade de saída.

Para Apple Silicon, embora o modelo mixture-of-experts de 26B apresente desafios únicos de roteamento com batch size 1, processar múltiplas requisições simultaneamente (batch sizes de 4 a 8) libera até aproximadamente 2.2x de aceleração local. Ganhos similares foram observados com NVIDIA A100 ao aumentar o batch size.

Disponibilidade e acesso

Os MTP drafters para a família Gemma 4 estão disponíveis imediatamente sob a mesma licença open source Apache 2.0 do Gemma 4. Os desenvolvedores podem baixar os pesos dos modelos agora mesmo através do Hugging Face e Kaggle, e começar a experimentar a inferência mais rápida com transformers, MLX, vLLM, SGLang e Ollama.

Para aplicações mobile, os drafters também podem ser testados diretamente no Google AI Edge Gallery para Android e iOS.

O Google publicou ainda um explicador técnico detalhado que descompacta a arquitetura visual, o compartilhamento de KV cache e os embedders eficientes que alimentam esses drafters, oferecendo transparência total sobre a mecânica da tecnologia para a comunidade de desenvolvedores.

SuaInternet.COM

Gemma 4 fica até 3x mais rápido com nova tecnologia de Multi-Token Prediction do Google

Google revoluciona velocidade do Gemma 4 com tecnologia de previsão de múltiplos tokens

Como funciona a aceleração por speculative decoding

Impacto prático para desenvolvedores

Otimizações específicas por hardware

Disponibilidade e acesso

Carlos Araújo

Tags:

Artigos Relacionados

Vulkan 1.4.352 é lançado com nova extensão NVIDIA para acelerar Machine Learning e IA

Firefox 151 lançado: Backup de perfil no Linux, API Picture-in-Picture e VPN aprimorada

Gemma 4: Inteligência Artificial no limite dos dispositivos