Quelle taille de modèle Ollama sur un Mac 16 Go ?

Modèle seul et peu d'applications : 16 Go de mémoire unifiée gèrent souvent des modèles quantifiés 7B–8B (ex. qwen2.5:7b, llama3.1:8b). Avec IDE, navigateur et outils de chat en parallèle, préférez du 3B (llama3.2:3b) ou 24 Go de RAM.

Le MacBook Air peut-il être ma machine LLM locale principale ?

Convient à l'inférence légère/moyenne et à la mobilité, mais le plafond 32 Go ne tient pas un 70B au long cours. Pour du 32B+ quotidien ou multi-modèles, visez Mac mini M4 Pro, MacBook Pro M4 Max ou Mac Studio.

Pourquoi le même tag Ollama diffère-t-il entre deux Mac ?

La mémoire unifiée fixe le poids chargeable ; thermique et charge durable déterminent le throttling ; macOS et les apps réservent plusieurs Go. Même tag ≠ même RAM de pointe ni tokens/s.

Guide d'achat 2026-05-26

Guide 2026 : gamme Mac complète et meilleurs modèles locaux — Air, mini, Pro et Studio en comparaison

Vous voulez un seul tableau comparatif pour savoir quels modèles Ollama conviennent à l'Air, au mini, au Pro et au Studio — sans parcourir des articles par modèle ? Ce guide propose une répartition nette : Air pour le léger/moyen, mini pour le poste fixe au meilleur rapport qualité-prix, Pro pour le dev mobile et la haute mémoire, Studio/Pro haute RAM pour les grands modèles en charge longue et les stations multitâches. Structure : tableau maître gamme + sections par famille + matrices mémoire/usage + runbook en 7 étapes (specs au 26-05-2026 ; configurations régionales possibles).

Guide 2026 gamme Mac et modèles locaux Ollama en comparaison

1. Pourquoi un tableau « gamme × modèles locaux » ?

Les fiches produit Apple n'indiquent pas clairement quel Mac fait tourner quels modèles locaux. MacBook Air, Mac mini, MacBook Pro et Mac Studio diffèrent non seulement par le prix et la portabilité, mais par les plafonds de mémoire unifiée, le refroidissement et la tenue en charge durable — donc par les modèles Ollama réalistes. Ollama unifie le point d'entrée (ollama pull / ollama run), mais le matériel compte : le même tag sur un Air 16 Go et un mini 64 Go peut donner des tokens/s très différents et empêcher de garder un second modèle chargé.

Les tableaux ci-dessous servent à la comparaison horizontale : passer du palier machine aux tags Ollama sans changer d'article. Pour le déploiement passerelle, voir le runbook OpenClaw × Ollama ; pour les paliers RAM du mini, le guide de configuration Mac mini M4.

2. Trois pièges en choisissant dans la gamme

Génération de puce avant plafond RAM : La mémoire unifiée est figée à l'achat. Tirer llama3.3:70b (~40 Go+ de poids) sur 16 Go mène au swap ou à l'échec de chargement — le goulot, c'est la RAM, pas le badge M4.
« Tourne une minute » vs « tient en station de travail » : L'Air sans ventilateur limite en inférence longue ; OK pour Q&R intermittentes, pas pour passerelles multi-modèles 7j/7. Charges durables : mini, Studio ou Pro haute RAM.
Un seul « meilleur Mac » pour tout : Pas de gagnant unique — chat léger, dev mobile, passerelles bureau et 70B local correspondent à des paliers différents. Le tableau maître classe par usage pour ne pas vendre un Studio à qui ne veut que du 7B.

3. Ollama : une entrée unique (30 secondes)

Ollama télécharge et exécute des LLM open source sur macOS : poids GGUF depuis la bibliothèque, CLI et API compatible OpenAI sur localhost:11434. Pas de configuration modèle par modèle, mais il faut aligner les tags sur la mémoire unifiée. Les recommandations ci-dessous renvoient aux tags courants de la bibliothèque Ollama ; quantification souvent Q4 — l'usage réel inclut le cache KV et la marge système.

4. Positionnement modèles locaux — gamme Mac 2026 (tableau maître)

Plafonds RAM selon les maximums configurables Apple (revérifier la boutique de votre région avant achat). Modèles recommandés = paliers confortables au quotidien ; des noms plus gros peuvent charger mais rester trop lents — voir la colonne limites.

Série	Puce / génération typique	RAM unifiée max*	Modèles Ollama (zone confort)	Idéal pour	Limites / erreur d'achat typique
MacBook Air	M4 (2025)	32GB	`llama3.2:3b`, `qwen2.5:7b`; 24 Go+ essai `qwen2.5:14b`	Inférence d'entrée, bureau mobile, dev léger	❌ Station 70B ; charge durable = throttling
iMac 24"	M4 (2024/25)	32GB	Comme Air : léger/moyen + tout-en-un bureau	Domicile/bureau, création légère	❌ iMac maxi écran mais RAM insuffisante pour 32B
Mac mini	M4 / M4 Pro (2024)	M4 : 32 Go ; M4 Pro : 64 Go	24 Go : `qwen2.5:14b`, `mistral-nemo` ; 48 Go+ : `qwen2.5:32b`	Poste fixe, passerelle Ollama, nœud inférence rentable	❌ 16 Go serveur multi-modèles ; ✅ priorité à la RAM
MacBook Pro 14/16"	M4 / M4 Pro / M4 Max	M4 : 32 Go ; M4 Max : 128 Go	48 Go+ : `qwen2.5:32b`, RAG + IDE ; 96 Go+ évaluer `llama3.3:70b`	Dev mobile, démos sur site, portable haute RAM	❌ M4 Max pour chat 7B seul ; ✅ Max dès 64 Go+
Mac Studio	M4 Max / M3 Ultra (mix 2025)	M4 Max : 128 Go ; plus sur Ultra	`llama3.3:70b`, multi `qwen2.5:32b`, embed + RAG sur une machine	Grands modèles en continu, station de travail, inférence LAN équipe	❌ Studio maxi pour 7B seul ; ✅ 70B / modèles parallèles
Mac Pro	M2 Ultra tour, etc.	Jusqu'à ~192 Go (CTO)	Multi-70B, recherche/batch (budget + E/S adaptés)	Format tour, workflows avec extensions	❌ Chat Ollama débutant ; coût ≫ mini/Studio

* RAM max configurable, pas la config de base. Variantes régionales/reconditionnées possibles. Combinaisons Studio/Pro évolutives — confirmer sur apple.com/mac/compare.

En une ligne : léger/moyen → Air / iMac ; bureau rentable → Mac mini ; mobile + RAM → MacBook Pro ; grands modèles durables → Mac Studio (ou Pro 128 Go).

5. MacBook Air / iMac : modèles locaux légers à moyens

Positionnement : Intégrer l'IA locale au quotidien et en déplacement — pas remplacer un serveur d'inférence.

Palier RAM	Modèles suggérés	Usage typique
16GB	`llama3.2:3b`, `gemma2:2b`	Résumés, traduction, scripts simples ; limiter les onglets
24GB	`qwen2.5:7b`, `llama3.1:8b`	Chat quotidien + code léger ; bon compromis sur Air
32 Go (plafond)	`qwen2.5:14b`, `mistral:7b`	Qualité exigeante mais portable ; 14B à vitesse acceptable

Erreur d'achat typique : Air 16 Go pour 32B local ou agents multi-modèles permanents — minimum 24 Go ou passer au mini.

6. Mac mini : meilleur rapport qualité-prix au poste fixe

Positionnement : Moins de coût boîtier, plus de mémoire unifiée et meilleure tenue thermique — le nœud Ollama classique à la maison ou en petite équipe. M4 plafonne à 32 Go ; M4 Pro monte à 64 Go, le sweet spot 32B sans prix Studio.

Palier RAM	Modèles suggérés	Notes
24 Go (M4 courant)	`qwen2.5-coder:7b`, `mistral-nemo`	Dev + assistant local ; marge pour passerelle + IDE
32 Go (max M4)	`qwen2.5:14b`, `deepseek-coder-v2`	RAG sur une machine ; 70B toujours inconfortable
48 Go (M4 Pro)	`qwen2.5:32b` (close extra apps)	32B quantifié ; bon défaut LAN équipe
64 Go (max M4 Pro)	32B résident + embed ; essai `llama3.3:70b` (lent)	70B sur 64 Go = essai ; 70B durable → Studio/128 Go

Erreur d'achat typique : Mini 16 Go de base pour OpenClaw + Ollama 7j/7 — partir de 24 Go ; passerelles lourdes dès 32 Go.

7. MacBook Pro : puissance mobile et haute RAM

Positionnement : Emporter l'inférence haute mémoire : démos RAG chez le client, modèles code en voyage, Xcode en parallèle. M4 Pro plafonne à 32 Go comme l'Air ; M4 Max 128 Go est la voie mobile réaliste pour llama3.3:70b.

Signal de config	Orientation
M4 + 24–32GB	Modèles niveau Air ; avantage écran, thermique, ports — pas des poids plus lourds
M4 Pro + 48GB	`qwen2.5:32b` + IDE/conteneurs ; plafond mobile 32B pratique
M4 Max + 64–128GB	96 Go+ confortable `llama3.3:70b` ; 128 Go pour multi-modèles + RAG grand contexte

Erreur d'achat typique : Max chargé pour chat 7B seul — s'il reste au bureau, mini/Studio gagnent au euro.

8. Mac Studio / Mac Pro : voie station de travail

Qui doit viser ce palier : 70B au quotidien, embed + chat + apps créatives ensemble, ou équipe sur une instance Ollama LAN. Mac Studio 2025 M4 Max jusqu'à 128 Go unifiés ; Mac Pro (M2 Ultra, etc.) ~192 Go pour RAM extrême — pas pour chat local débutant.

Studio 64–96 Go : qwen2.5:32b résident + routeur 7B/14B ;
Studio / Pro 128 Go : llama3.3:70b en principal local avec marge macOS ;
Limite : modèles type 405B hors zone confort sur bureau Apple Silicon — API cloud ou déploiement distribué.

Erreur d'achat typique : Studio pour passerelle 7B seule, ou 70B forcé sur 32 Go sans accepter swap et chaleur.

9. Meilleurs modèles locaux — référence rapide : par mémoire et par usage

9.1 Par mémoire unifiée effective (classe Q4, marge système)

RAM effective*	Tags Ollama	Taille de poids approx.
~8 Go effectifs	`llama3.2:1b`, `qwen2.5:0.5b`	~1–2 Go ; Q&R minimales seulement
~16 Go effectifs	`llama3.2:3b`, `qwen2.5:7b`	~2–5GB
~24 Go effectifs	`qwen2.5:14b`, `mistral-nemo`	~8–12GB
32 Go+ effectifs	`qwen2.5:32b`	~18–22GB
48 Go+ effectifs	`llama3.3:70b`	~40 Go+ ; fermer les apps superflues

* « Effectif » = espace pratique pour poids + cache KV, pas la capacité étiquetée sur la boîte.

9.2 Par cas d'usage (du tableau vers `ollama pull`)

Usage	Tags	Palier Mac adapté
Q&R quotidiennes (dont chinois)	`qwen2.5:7b`	Air / mini 24GB+
Code / agents	`qwen2.5-coder:7b`, `deepseek-coder-v2`	mini 24GB+ / Pro 48GB+
RAG local + embeddings	`qwen2.5:14b` + `nomic-embed-text`	mini 32GB+ / Studio 64GB+
70B open source principal	`llama3.3:70b`	Studio 96GB+ / M4 Max 128GB

10. Runbook de sélection en 7 étapes : du tableau à l'achat

Noter la tâche la plus lourde : chat 7B intermittent, code 32B quotidien, ou 70B + RAG ?
Vérifier le plafond RAM par série : specs Apple — ne pas compter sur la RAM de base si vous visez le max CTO.
Choisir une série dans le tableau maître : portable → Air/Pro ; bureau → mini ; 70B/multi-modèles → Studio.
Choisir les tags Ollama dans les références rapides : plus gros paramètre confortable en interaction, pas le plus gros nom de la bibliothèque.
Valider sur le matériel : après ollama pull, surveiller la pression mémoire et 15 min de tokens/s soutenus.
Compter les apps parallèles : IDE, Docker et onglets : souvent 4–8 Go+ — monter d'un palier RAM si besoin.
Bureau d'abord → privilégier le mini : sans écran intégré, le budget achète en général plus de RAM qu'un ultraportable.

11. Chiffres citables et conclusion

Règle mémoire unifiée : poids + cache KV + OS/apps ≈ usage réel ; ordre Q4 : 7B ~4–5 Go, 32B ~18–22 Go, 70B ~40 Go+ (plus marge).
Plafond Air / iMac : mémoire unifiée série M4 jusqu'à 32 Go (docs support Apple, Air 2025).
Mac mini: M4 max 32 Go ; M4 Pro max 64 Go.
MacBook Pro M4 Max : jusqu'à 128 Go — seuil mobile clé pour 70B.
Mac Studio M4 Max : jusqu'à 128 Go pour stations grands modèles en continu.
Conclusion : pas de « meilleur Mac » unique — stratifier Air, mini, Pro, Studio par métier, puis choisir les tags Ollama selon la RAM.

12. FAQ

Le M4 fait-il tourner des modèles plus gros que le M2 à RAM égale ?

À mémoire égale, le M4 offre souvent plus de bande passante et de tokens/s, mais 16 Go limitent toujours les poids. Monter la RAM bat monter la puce pour le palier modèle.

Un SSD externe peut-il corriger « modèle trop gros » ?

Le stockage externe garde les GGUF, mais l'inférence charge les poids en mémoire unifiée — le disque ne remplace pas la RAM. SSD = « plus de place sur disque », pas « faire tourner le modèle ».

Petite équipe : plusieurs Air ou un mini ?

Pour une passerelle Ollama LAN partagée, un Mac mini 32/48 Go est en général plus stable que plusieurs Air 16 Go ; ajouter des Air seulement pour la mobilité.

13. Modèles locaux au poste fixe : pourquoi le Mac mini

Faire tourner Ollama correctement repose sur assez de mémoire unifiée et une thermique stable en charge longue, pas sur la présence d'un écran. Mac mini M4 / M4 Pro propose souvent 24, 32 ou 64 Go pour le budget d'un ultraportable ; le pool mémoire Apple Silicon offre une bande passante élevée CPU/GPU/Neural Engine ; sur macOS, Ollama via Homebrew et launchd pour passerelles 7j/7 s'aligne avec la configuration parallèle OpenClaw. Veille M4 Mac mini ~4 W, silencieux pour un nœud maison ; Gatekeeper et FileVault limitent les risques en fonctionnement continu.

Si le tableau maître indique bureau fixe + 14B/32B — et non mobile + 7B — investir dans les paliers RAM du Mac mini bat souvent un ultraportable. Pour valider la RAM modèle avant achat, les nœuds Mac physiques ZoneMac dans votre région permettent de tester charge et swap sur Apple Silicon réel.

Pour exécuter le plan Ollama de ce guide sur le matériel Apple Silicon le mieux adapté, le Mac mini M4 reste l'un des meilleurs points d'entrée 2026 — découvrez ZoneMac et associez passerelle et dev en une fois.

Nœud d'inférence locale

Aligner la RAM du Mac mini sur votre palier Ollama

Validez les modèles avec les tableaux gamme, puis achetez ou louez un Mac physique — passerelle, CI et développement distant dans une même région.

Mémoire unifiée Prêt pour Ollama Faible conso 7j/7