Le cache KV est un goulot d’etranglement majeur en memoire pour l’inference LLM en contexte long. Les methodes traditionnelles de quantification vectorielle comme la quantification par produit necessitent un entrainement de codebook specifique au jeu de donnees qui peut prendre des centaines de secondes. TurboQuant, de Google Research (ICLR 2026), est independant des donnees: pas d’entrainement, pas de calibration, fonctionne instantanement.
L’intuition cle: appliquer une rotation aleatoire aux vecteurs d’entree induit une distribution Beta concentree sur chaque coordonnee en haute dimension, rendant les coordonnees presque i.i.d. Cela permet de resoudre un simple probleme de quantification scalaire 1D par coordonnee plutot qu’une optimisation conjointe complexe. Les codebooks sont precalcules une fois par largeur de bits et reutilises au moment de l’inference.
Pour les mecanismes d’attention, la quantification optimale en MSE introduit un biais dans l’estimation des produits internes. TurboQuant corrige cela avec une approche en deux etapes: quantifier a b-1 bits pour le MSE, puis appliquer une transformation Quantized Johnson-Lindenstrauss a 1 bit sur le residuel. Le resultat est un estimateur de produit interne provablement non biaise a b bits au total.
Chiffres: compression 6x du cache KV avec 100% de precision de recuperation sur Needle-In-A-Haystack jusqu’a 104k tokens. TurboQuant a 4 bits offre jusqu’a 8x d’acceleration par rapport aux cles non quantifiees en 32 bits sur H100. Temps d’indexation pour des vecteurs de dimension 1536: 0,0013s contre 239s pour la quantification par produit.