L’IA BitNet b1.58 2B4T de Microsoft fonctionne efficacement sur PC avec seulement 0,4 Go de mémoire. Ce LLM 1.58 bit est pourtant à 2 milliards de paramètres.
Un LLM ne nécessite pas toujours d’infrastructures lourdes, et Microsoft l’a prouvé avec BitNet b1.58 2B4T. Cette IA open source, performante et légère, fonctionne sur un matériel standard. Son code source de l’infrastructure d’inférence bitnet.cpp était déjà disponible depuis octobre 2024. Mais le modèle spécifique 2B4T et ses poids optimisés ont été rendus publics le 16 avril 2025.
Une IA légère pour un PC sans GPU
BitNet b1.58 2B4T utilise une architecture ternaire avec trois valeurs de poids : -1, 0, +1 avec des calculs complexes réduits. En effet, les chercheurs optimisent les opérations avec des additions simples et limitent les multiplications coûteuses.
Ce modèle utilise des couches BitLinear et une architecture transformeur avec des embeddings RoPE et une normalisation subln. Cette approche minimise la latence.
Ainsi, cette IA de Microsoft fonctionne sur des PC standards ou aux appareils edge sans nécessiter une infrastructure lourde. Le modèle consomme seulement 0,4 Go de mémoire, contre 2 à 5 Go pour d’autres modèles similaires.
En prime, BitNet b1.58 offre une efficacité énergétique qui réduit l’empreinte carbone. Ce modèle doit cela à son noyau optimisé qui privilégie les instructions légères. Ce modèle consomme 85 à 96 % d’énergie en moins que les modèles traditionnels.
Contrairement à ces derniers qui nécessitent des GPU, BitNet, quantifié en 1,58 bit, exploite les CPU des PC courants. Le LLM atteint des vitesses de 5 à 7 jetons par seconde, équivalentes à la lecture humaine.
Un modèle open source et performant
Cette IA de Microsoft maintient des performances élevées sur les PC standards. Elle surpasse des modèles comme Llama 3.2 1 B dans les tests de raisonnement.
Le modèle repose sur 2 milliards de paramètres et traite 4 000 milliards de jetons d’entraînement. Les benchmarks révèlent une précision proche des grands modèles. Toutefois, de légères pertes surviennent dans des tâches complexes.
BitNet b1.58 2B4T se décline en trois variantes sur Hugging Face : une en 1,58 bit, une en BF16 et une en GGUF. Toutes sont open source sous licence MIT, donc sont gratuites pour la recherche ou l’usage commercial.
Son framework d’inférence bitnet.cpp, inspiré de llama.cpp, offre des gains d’efficacité de 1,37 à 6,17 fois sur CPU. Il est disponible sur GitHub depuis octobre 2024 et open source, mais ne prend pas en charge les GPU. Cela limite son adoption à grande échelle. Microsoft travaille à élargir la compatibilité matérielle.
- Partager l'article :