Tout Mac Apple Silicon doté de 16 Go de RAM ou plus peut faire tourner un modèle d'IA local en moins de dix minutes, gratuitement, sans compte et sans qu'aucune donnée ne soit envoyée où que ce soit. Ce guide est le mode d'emploi complet de l'installation : quel outil installer, quel modèle télécharger, les commandes exactes à saisir et les performances à attendre selon votre puce.

Si vous n'avez pas encore acheté de Mac, ou si vous vous demandez si votre Mac actuel dispose d'assez de RAM, commencez par notre guide sur le meilleur Mac pour l'IA en 2026. Il couvre les gammes de matériel, les prix du reconditionné et la quantité de RAM réellement nécessaire avant de dépenser le moindre euro.

Pour tous les autres : cet article part du principe que vous possédez déjà un Mac Apple Silicon et que vous voulez faire tourner un modèle dès aujourd'hui.

Pourquoi faire tourner une IA en local sur votre Mac ?

Faire tourner une IA en local vous offre ce qu'aucun service cloud ne peut égaler : un contrôle total. Vos données ne quittent jamais votre appareil, aucun prompt n'est stocké sur un serveur tiers et personne ne peut lire vos conversations.

La confidentialité au niveau du matériel. Chaque requête envoyée à ChatGPT ou Claude voyage jusqu'à un centre de données, y est enregistrée et peut servir à l'entraînement. L'IA locale garde tout sur votre machine. Pour quiconque travaille avec des données clients sensibles, des documents juridiques, des dossiers médicaux ou des projets personnels, cette différence compte énormément. Elle est directement pertinente pour la conformité au RGPD.

Aucune dépendance à Internet. Après le téléchargement initial du modèle, tout fonctionne entièrement hors ligne. Vous pouvez travailler en avion, dans un lieu isolé ou pendant une panne réseau sans la moindre interruption.

Aucune limite d'usage ni plafond de requêtes. Les services cloud brident les gros utilisateurs. L'IA locale vous laisse lancer des milliers de requêtes par jour, générer de longs documents ou boucler des inférences dans du code sans jamais buter sur un mur.

Une vitesse compétitive pour les prompts courts. L'inférence locale sur une puce M4 Pro génère des réponses en quelques millisecondes pour les prompts les plus courts, en supprimant la latence d'aller-retour réseau qu'ajoutent les API cloud.

Mac mini Apple Silicon sur un bureau, utilisé comme station de travail d'IA locale

Ce dont vous avez besoin avant de commencer

Une courte liste de vérification préalable :

  • Un Mac Apple Silicon. M1 ou plus récent. Les Mac Intel peuvent techniquement faire tourner une IA locale via llama.cpp, mais les performances sont médiocres sans mémoire unifiée ni accélération GPU. L'IA locale réellement exploitable commence avec le M1.
  • 16 Go de RAM minimum. Les Mac de 8 Go peuvent exécuter de tout petits modèles 3B, mais rien de vraiment utile. 16 Go est le seuil pratique pour les modèles 7B à 8B. De 24 à 48 Go débloquent les modèles 14B à 32B qui approchent la qualité de GPT-4.
  • Environ 10 à 50 Go d'espace disque libre. Les fichiers de modèle vont de 2 Go (un modèle 3B) à 45 Go (un modèle 70B en quantification Q4).
  • macOS Sonoma ou plus récent. Les versions antérieures de macOS fonctionnent, mais sans certaines optimisations Metal.

Besoin de mettre à niveau ou d'acheter d'abord ? Consultez le meilleur Mac pour l'IA en 2026 pour les prix du reconditionné et les recommandations de puces.

Besoins en RAM selon la taille du modèle

Le fichier de modèle doit tenir dans votre mémoire unifiée, aux côtés de macOS, du cache KV (le stockage de la fenêtre de contexte) et de toutes les autres applications ouvertes. Une règle pratique : le fichier de modèle ne doit pas dépasser 60 à 70 pour cent de votre RAM totale.

Taille du modèle RAM nécessaire Exemples de modèles Niveau de capacité
3B-4B 8 Go minimum Llama 3.2 3B, Phi-4 Mini, Gemma 3 4B Questions-réponses simples, résumés
7B-8B 16 Go minimum Qwen 3 8B, Llama 3.1 8B, Mistral 7B Discussion générale, aide au code, rédaction
12B-14B 24 Go minimum Qwen 3 14B, DeepSeek-R1-Distill-14B Raisonnement solide, rédaction professionnelle
30B-32B 36-48 Go Qwen 3 32B, DeepSeek-R1-Distill-32B Qualité proche de GPT-4 pour la plupart des tâches
70B 64-96 Go Llama 3.3 70B, Qwen 2.5 72B Niveau frontière, rivalise avec les modèles cloud
200B+ 128 Go+ Qwen3 235B-A22B, DeepSeek V3 (quantifié) Capacité maximale de niveau recherche

Une note sur la quantification : les modèles sont distribués dans différents formats de précision. Le Q4_K_M est le standard pour un usage local. Il fait passer un modèle 70B d'environ 140 Go (en float32 complet) à 40 ou 45 Go tout en conservant l'essentiel de la qualité. Le Q8 est de meilleure qualité, mais presque deux fois plus volumineux. À partir du Q3 et en dessous, on commence à voir une dégradation notable de la qualité sur les tâches de raisonnement complexes.

En pratique, retenez ceci : 16 Go est le minimum pour une IA réellement utile. De 24 à 48 Go ouvrent la porte aux modèles qui approchent la qualité de GPT-4. 64 Go ou plus permettent de faire tourner des modèles de niveau frontière, entièrement hors ligne.

Les 4 meilleurs outils pour faire tourner une IA sur Mac

Quatre outils dominent le paysage de l'IA locale sur Mac. Tous sont gratuits. Choisissez selon votre façon de travailler.

Ollama

Ollama est l'outil de référence des développeurs. Il tourne comme un service en arrière-plan et expose une API compatible OpenAI, ce qui signifie que vous pouvez pointer n'importe quelle application ou n'importe quel script utilisant le SDK OpenAI directement vers votre machine locale. L'installation tient en une commande dans le terminal. Le téléchargement des modèles est tout aussi simple : ollama pull qwen3:8b récupère et stocke le modèle automatiquement.

Ollama consomme environ 100 Mo de RAM en surcharge, prend en charge des dizaines de modèles depuis sa bibliothèque sur ollama.com et est sous licence MIT. C'est le meilleur choix pour les développeurs qui veulent intégrer l'IA locale dans des applications, faire tourner l'IA comme service backend ou automatiser des workflows via le terminal.

LM Studio

LM Studio est l'option la plus accessible pour quiconque veut une expérience visuelle à la ChatGPT. Il se présente comme une application macOS native, avec un navigateur de modèles, un gestionnaire de téléchargement et une interface de discussion complète. Vous n'avez pas besoin de toucher au terminal.

LM Studio prend en charge à la fois les modèles GGUF (avec llama.cpp en interne) et les modèles au format MLX. Les modèles MLX via LM Studio sont plus économes en mémoire et généralement 20 à 30 pour cent plus rapides sur Apple Silicon que leurs équivalents GGUF. L'application consomme environ 500 Mo de RAM en surcharge et est gratuite pour un usage personnel. C'est le meilleur choix pour les rédacteurs, les chercheurs, les utilisateurs non techniques et tous ceux qui veulent un remplaçant privé de ChatGPT.

MLX (le framework d'Apple)

MLX est le framework d'apprentissage automatique open source d'Apple, conçu spécifiquement pour Apple Silicon. Il expose des API Python, Swift, C++ et C, et offre l'inférence la plus rapide disponible sur le matériel Mac. MLX peut aussi affiner (fine-tuner) des modèles en local, ce qu'aucun autre outil de cette liste ne permet sans configuration supplémentaire.

La contrepartie est une courbe d'apprentissage plus raide : vous travaillez directement en Python ou en Swift plutôt qu'à travers une interface graphique. MLX est idéal pour les ingénieurs en apprentissage automatique, les chercheurs qui ont besoin de performances maximales et les développeurs qui conçoivent des applications nativement orientées IA pour les plateformes Apple.

llama.cpp

llama.cpp est le moteur d'inférence fondateur qui fait tourner Ollama en interne. Il offre un contrôle maximal sur chaque paramètre d'inférence : longueur de contexte, température, pénalité de répétition, taille de lot, et bien plus. Exécuter llama.cpp directement convient surtout aux utilisateurs avancés qui veulent régler chaque aspect du comportement du modèle et qui sont à l'aise avec un flux de travail en ligne de commande.

Guide de décision rapide : si vous écrivez du code, commencez par Ollama. Si vous voulez une application de discussion visuelle, commencez par LM Studio. Si vous avez besoin d'une vitesse maximale et que vous travaillez en Python, utilisez MLX directement.

Démarrage rapide : votre premier modèle local en 5 minutes

Le chemin le plus rapide pour faire tourner une IA locale sur Mac, c'est Ollama. De zéro à un modèle opérationnel en moins de cinq minutes.

Étape 1 : installez Ollama. Rendez-vous sur ollama.com et téléchargez l'application macOS. Faites-la glisser dans votre dossier Applications et ouvrez-la. Ollama tourne comme un service dans la barre de menus.

Étape 2 : ouvrez le Terminal et lancez votre premier modèle. Appuyez sur Commande + Espace, tapez « Terminal » puis Entrée. Saisissez ensuite l'une de ces commandes selon votre RAM :

  • Mac de 8 Go : ollama run llama3.2:3b
  • Mac de 16 Go : ollama run qwen3:8b
  • Mac de 24 Go : ollama run qwen3:14b
  • Mac de 48 Go et plus : ollama run qwen3:32b

Ollama télécharge le modèle automatiquement (en général de 2 à 20 Go selon la taille) et vous place dans une session de discussion interactive. Aucun compte requis. Aucune donnée envoyée où que ce soit.

Étape 3 : commencez à discuter. Tapez votre prompt et appuyez sur Entrée. La première réponse prend quelques secondes, le temps que le modèle se charge en mémoire. Les réponses suivantes démarrent immédiatement.

Vous préférez une interface visuelle ? Utilisez LM Studio. Aucun terminal requis :

  1. Téléchargez LM Studio depuis lmstudio.ai et ouvrez-le.
  2. Cliquez sur l'onglet Recherche, trouvez un modèle (Qwen 3 8B est un bon point de départ) et cliquez sur Télécharger.
  3. Une fois le téléchargement terminé, cliquez sur Discussion dans la barre latérale, sélectionnez votre modèle et commencez à parler.

Les deux outils sont entièrement gratuits. Aucun abonnement, aucun compte, aucune donnée transmise à des serveurs externes.

Ollama faisant tourner Qwen 3 dans le Terminal macOS, illustrant l'inférence d'une IA locale

Tests de performance : à quoi s'attendre

Les vitesses réelles de génération de tokens varient selon la configuration, le modèle et le backend. Voici ce que les tests de la communauté ont régulièrement montré :

Configuration Modèle Backend Vitesse (tokens/s)
M4 base 16 Go Llama 3.2 3B Q4 Ollama 40-55
M3 Pro 36 Go Llama 3.1 8B Q4 Ollama 25-35
M4 Pro 48 Go Qwen 3 32B Q4 MLX 12-22
M4 Max 64 Go Qwen 3 8B Q4 MLX 95-110
M4 Max 64 Go Llama 3.3 70B Q4 Ollama 8-15
M3 Max 96 Go Llama 3 70B Q4 Ollama 10-15
M2 Ultra 192 Go Qwen3 235B Q4 MLX environ 30

Pour replacer ces chiffres dans leur contexte : 15 à 20 tokens par seconde correspondent à une vitesse de lecture confortable pour la plupart des gens. Au-delà de 10 tokens par seconde, c'est parfaitement utilisable pour une discussion interactive. En dessous de 5 tokens par seconde, l'échange paraît nettement laborieux pour une conversation, même si cela reste exploitable pour du résumé par lots ou des tâches ponctuelles.

Le backend MLX est systématiquement 20 à 30 pour cent plus rapide que le backend llama.cpp d'Ollama sur le même matériel. Si la vitesse brute compte, utilisez des modèles au format MLX dans LM Studio ou via la bibliothèque Python MLX.

Une nuance importante : la bande passante mémoire compte davantage que la génération de puce pour la vitesse d'inférence. La génération de tokens nécessite de faire transiter en continu les poids du modèle par les unités de calcul. Un M3 Max avec 400 Go/s de bande passante génère des tokens plus vite qu'une puce M4 de base à 120 Go/s pour le même modèle, même si le M4 dispose d'un Neural Engine plus récent. Pour le détail complet de la bande passante par puce, consultez notre guide du meilleur Mac pour l'IA.

Les meilleurs modèles d'IA à faire tourner en local en 2026

Tous les modèles open source ne se valent pas. Voici les meilleures options par cas d'usage, testées et classées par la communauté début 2026 :

Cas d'usage Modèle recommandé RAM min Pourquoi
Discussion générale Qwen 3 8B Q4 16 Go Le meilleur polyvalent à cette taille
Assistant de code Qwen 2.5 Coder 32B Q4 48 Go Meilleurs scores sur les tests de code
Raisonnement et maths DeepSeek-R1-Distill-14B Q4 24 Go Spécialiste du raisonnement pas à pas
Écriture créative Llama 3.3 70B Q4 96 Go Excellente production narrative longue
Travail sensible à la confidentialité N'importe quel modèle local 16 Go+ Aucune transmission au cloud
Multilingue Qwen 3 (toute taille) 16 Go+ Prend en charge nativement 29 langues ou plus

Les modèles sont hébergés sur Hugging Face et disponibles directement dans la bibliothèque de modèles d'Ollama et le navigateur de modèles de LM Studio. Vous n'avez pas besoin de vous rendre sur Hugging Face, sauf si vous cherchez des variantes spécialisées ou affinées.

Un bon point de départ pour la plupart des utilisateurs : Qwen 3 8B couvre la discussion générale, l'aide légère au code, le résumé et l'assistance à la rédaction dans un seul téléchargement de 5 Go qui tourne bien sur tout Mac doté de 16 Go de mémoire unifiée.

Résolution des problèmes courants

Le modèle se charge mais génère du charabia. Vous faites probablement tourner une quantification Q3 ou inférieure sur un modèle qui a besoin de Q4 ou plus pour conserver sa qualité. Re-téléchargez le modèle en Q4_K_M : dans Ollama, ollama pull qwen3:8b-q4_K_M. Dans LM Studio, filtrez la recherche de modèles sur Q4_K_M.

L'inférence est extrêmement lente. Ouvrez le Moniteur d'activité et regardez l'onglet GPU. Si l'utilisation du GPU est à zéro, le modèle tourne sur le processeur. Dans LM Studio, ouvrez les Réglages et activez Metal/MLX. Dans Ollama, assurez-vous d'avoir la dernière version : brew upgrade ollama ou téléchargez le dernier installateur depuis ollama.com.

Erreurs de mémoire insuffisante. Le modèle est trop volumineux pour votre RAM. Passez à un modèle plus petit (qwen3:8b au lieu de qwen3:14b) ou à une quantification plus basse (Q4 au lieu de Q8). Fermez les autres applications avant de charger le modèle.

La première réponse est lente, mais les suivantes sont rapides. C'est normal. Le modèle met quelques secondes à se charger en mémoire unifiée lors du premier prompt. Ensuite, les réponses démarrent immédiatement. macOS peut décharger le modèle de la mémoire après une période d'inactivité, ce qui déclenche un nouveau premier prompt lent.

Le processus Ollama refuse de s'arrêter. Quittez-le depuis l'icône de la barre de menus. Si cela échoue, tapez pkill ollama dans le Terminal.

Vous avez déjà un Mac ? Vous en voulez un plus puissant ?

Si votre Mac actuel manque de RAM et que vous ne pouvez pas faire tourner la taille de modèle dont vous avez réellement besoin, la mise à niveau est généralement le bon choix. La RAM d'Apple Silicon est soudée, donc le seul moyen d'ajouter de la mémoire est d'acheter un Mac neuf ou reconditionné.

Le reconditionné est le choix malin, car la puce et la bande passante mémoire ne vieillissent pas. Un MacBook Pro M4 Pro reconditionné avec 48 Go fait tourner les modèles à l'identique d'un neuf, souvent avec 30 à 40 pour cent de réduction par rapport au prix de détail. Consultez notre guide du meilleur Mac pour l'IA pour les prix du reconditionné en vigueur sur les configurations Mac mini, MacBook Pro et Mac Studio.

Pour approfondir la longévité et la possession d'un Mac : combien de temps dure un MacBook, les MacBook reconditionnés en valent-ils la peine et l'intérêt du reconditionné pour l'économie circulaire.

Si vous êtes actuellement sur un ancien Mac Intel et que vous vous demandez si la mise à niveau en vaut la peine pour des charges de travail d'IA, notre guide sur les Mac Intel et leur obsolescence détaille l'écart de performances.

Questions fréquentes

Dernière mise à jour: 12 juin 2026 · Publié le: 18 mai 2026