2026-04-08 · perf · 6 min

LLM à 14 ko : ce qui rentre, ce qui ne rentre pas

On a benchmarké un petit modèle ONNX + WebGPU sur un ThinkPad de 2019. Verdict : oui, c'est jouable. Non, ce n'est pas magique.

L'expérience exp_001 cible un cas précis : faire tourner un classificateur de texte de moins de 50 millions de paramètres entièrement côté navigateur, sans aucun appel serveur. ONNX runtime quantifié en INT8, WebGPU pour le compute, et un loader qui télécharge le poids une fois par session.

Sur un ThinkPad T490 (CPU Intel i5-8265U, GPU intégré UHD 620), on tient la cible — 740 ms de latence médiane sur 1000 inférences. Sur un MacBook Air M2 c'est 90 ms. Le facteur 8 est entièrement attribuable au GPU.

Ce qui ne rentre pas : tout ce qui demande de la génération autoregressive longue. Au-delà de 200 tokens, l'attention quadratique fait exploser la mémoire. Donc oui pour la classification, le tagging, la complétion courte. Non pour le chat ouvert.