TinyLoRA affine un modele de 7 milliards de parametres a 91,8% sur GSM8K avec seulement 13 parametres grace au RL

Un modele Qwen2.5-7B-Instruct affine avec 13 parametres entrainables (26 octets en bf16) atteint 91,8% sur GSM8K. L’affinage complet de 7,6 milliards de parametres atteint 91,7%. Ce chiffre n’est pas une erreur de frappe, et oui, ce sont le meme type de parametres.

Pour comprendre pourquoi c’est possible, il faut savoir ce que ces 13 parametres font reellement. Ce ne sont pas 13 poids remplacant 7,6 milliards d’autres. Ce sont 13 valeurs scalaires projetees a travers un tenseur aleatoire fixe en une mise a jour de haute dimension, qui est ensuite ajoutee aux matrices de poids geles dans toutes les couches. Vous ne reglez pas 13 boutons a la place de 7,6 milliards - vous reglez 13 directions de changement qui affectent chacune l’ensemble du modele via une transformation mathematique fixe. Les poids geles font tout le travail; la mise a jour minuscule les oriente.

TinyLoRA, de Meta FAIR, Cornell et CMU, s’appuie sur LoRA-XS: au lieu de matrices entrainables, il utilise un petit vecteur entraine projete a travers un tenseur aleatoire fixe, avec un partage de poids entre les couches pour reduire encore le nombre, jusqu’a un seul parametre partage dans le cas extreme.

La raison pour laquelle cela fonctionne du tout, c’est l’apprentissage par renforcement. Le RL (specifiquement GRPO) est 100 a 1000 fois plus efficace en parametres que l’affinage supervise a de petites tailles de mise a jour. Le SFT traite chaque token comme egalement informatif, forcant le modele a absorber le bruit stylistique et la structure non pertinente des demonstrations humaines. Les recompenses RL sont binaires (juste/faux sur une reponse mathematique), donc les caracteristiques pertinentes se renforcent tandis que les variations non pertinentes s’annulent par rech-antillonnage. Le signal est suffisamment propre pour que 13 degres de liberte suffisent.

Quelques resultats pratiques: le rang SVD gele r=2 est optimal (un rang plus eleve ajoute trop de degres de liberte pour que le petit vecteur puisse naviguer), le partage de parametres par profondeur de modele (“tiling”) surpasse le partage par type de module (Q/K/V), et fp32 est plus efficace en bits que bf16 dans les regimes de tres peu de parametres malgre son empreinte plus grande par parametre.

L’implication pour les modeles plus grands est frappante: a mesure que les modeles grandissent, ils deviennent plus “programmables” avec moins de parametres absolus. Les modeles a l’echelle du trillion pourraient eventuellement etre orientes avec une poignee d’octets.