2026-04-08 · perf · 6 min
LLM edge a 14 ko: cosa entra, cosa no
Abbiamo benchmarkato un piccolo modello ONNX + WebGPU su un ThinkPad del 2019. Verdetto: sì, è fattibile. No, non è magia.
L'esperimento exp_001 mira a un caso preciso: far girare un classificatore di testo sotto i 50 milioni di parametri interamente nel browser, senza alcuna chiamata server. ONNX runtime quantizzato in INT8, WebGPU per il compute, e un loader che scarica i pesi una volta per sessione.
Su un ThinkPad T490 (CPU Intel i5-8265U, GPU integrata UHD 620), centriamo l'obiettivo — 740 ms di latenza mediana su 1000 inferenze. Su un MacBook Air M2 sono 90 ms. Il fattore 8 è interamente attribuibile alla GPU.
Cosa non entra: qualsiasi cosa richieda generazione autoregressiva lunga. Oltre 200 token, l'attenzione quadratica fa esplodere la memoria. Quindi sì alla classificazione, al tagging, al completamento breve. No alla chat aperta.