Puis-je faire tourner ChatGPT en local sur mon Mac ?

Vous ne pouvez pas faire tourner ChatGPT lui-même en local, car c'est un service propriétaire d'OpenAI. En revanche, vous pouvez exécuter des modèles open source comme Llama 3, Qwen 3 et DeepSeek R1 qui rivalisent avec les capacités de ChatGPT pour la plupart des tâches. Des outils comme Ollama et LM Studio rendent l'opération aussi simple que de télécharger une application et de saisir une commande.

Ollama ou LM Studio : lequel est le meilleur pour le Mac ?

Les deux sont excellents, pour des utilisateurs différents. Ollama convient mieux aux développeurs qui veulent un accès API, des workflows en terminal et une intégration au code et à l'automatisation. LM Studio convient mieux à tous les autres : il offre une interface visuelle et prend en charge les modèles au format MLX, qui délivrent 20 à 30 pour cent de performances en plus sur Apple Silicon. Beaucoup de gens installent les deux.

Ai-je besoin d'une connexion Internet pour faire tourner une IA locale ?

Seulement pour le téléchargement initial du modèle, qui va d'environ 2 Go pour un modèle 3B à 45 Go pour un modèle 70B quantifié. Une fois le téléchargement terminé, tout fonctionne entièrement hors ligne. Aucune connexion Internet, aucun serveur cloud, aucune donnée ne quitte votre Mac.

Puis-je faire tourner une IA sur un Mac Intel ?

Techniquement oui, via llama.cpp, mais les performances sont nettement moins bonnes sans la mémoire unifiée et l'accélération GPU d'Apple Silicon. Les Mac Intel n'ont pas le pool de mémoire partagée GPU-CPU qui permet à Apple Silicon de faire transiter efficacement de gros modèles. Pour tout usage interactif réel de l'IA, il vous faut une puce M1 ou plus récente.

Qu'est-ce que MLX et devrais-je l'utiliser ?

MLX est le framework d'apprentissage automatique open source d'Apple, conçu spécifiquement pour Apple Silicon. Il tourne 20 à 30 pour cent plus vite que llama.cpp sur le même matériel pour l'inférence des grands modèles de langage. Si vous utilisez LM Studio, basculez sur les modèles au format MLX lorsqu'ils sont disponibles : ils apparaissent dans le navigateur de modèles avec l'étiquette « MLX ». Si vous écrivez en Python et voulez des performances maximales, utilisez directement la bibliothèque MLX.

Quel modèle télécharger en premier ?

Qwen 3 8B en quantification Q4. C'est un téléchargement de 5 Go qui tourne bien sur tout Mac doté de 16 Go de RAM ou plus, et il gère la discussion générale, le résumé, l'aide légère au code et l'assistance à la rédaction mieux que tout autre modèle de sa catégorie de taille à la mi-2026. Lancez `ollama run qwen3:8b` pour démarrer.

Comment mettre à jour Ollama ou LM Studio ?

Pour Ollama : lancez `brew upgrade ollama` si vous l'avez installé via Homebrew, ou téléchargez le dernier installateur depuis ollama.com et remplacez l'application. Pour LM Studio : ouvrez l'application, cliquez sur l'icône en forme de roue dentée et sélectionnez « Vérifier les mises à jour ». Les deux outils mettent régulièrement à jour leurs moteurs de modèles et les optimisations Metal, donc prendre l'habitude de les mettre à jour chaque mois est une bonne idée.

IA locale sur Mac en 2026 : le guide d'installation

Tout Mac Apple Silicon doté de 16 Go de RAM ou plus peut faire tourner un modèle d'IA local en moins de dix minutes, gratuitement, sans compte et sans qu'aucune donnée ne soit envoyée où que ce soit. Ce guide est le mode d'emploi complet de l'installation : quel outil installer, quel modèle télécharger, les commandes exactes à saisir et les performances à attendre selon votre puce.

Si vous n'avez pas encore acheté de Mac, ou si vous vous demandez si votre Mac actuel dispose d'assez de RAM, commencez par notre guide sur le meilleur Mac pour l'IA en 2026. Il couvre les gammes de matériel, les prix du reconditionné et la quantité de RAM réellement nécessaire avant de dépenser le moindre euro.

Pour tous les autres : cet article part du principe que vous possédez déjà un Mac Apple Silicon et que vous voulez faire tourner un modèle dès aujourd'hui.

Pourquoi faire tourner une IA en local sur votre Mac ?

Faire tourner une IA en local vous offre ce qu'aucun service cloud ne peut égaler : un contrôle total. Vos données ne quittent jamais votre appareil, aucun prompt n'est stocké sur un serveur tiers et personne ne peut lire vos conversations.

La confidentialité au niveau du matériel. Chaque requête envoyée à ChatGPT ou Claude voyage jusqu'à un centre de données, y est enregistrée et peut servir à l'entraînement. L'IA locale garde tout sur votre machine. Pour quiconque travaille avec des données clients sensibles, des documents juridiques, des dossiers médicaux ou des projets personnels, cette différence compte énormément. Elle est directement pertinente pour la conformité au RGPD.

Aucune dépendance à Internet. Après le téléchargement initial du modèle, tout fonctionne entièrement hors ligne. Vous pouvez travailler en avion, dans un lieu isolé ou pendant une panne réseau sans la moindre interruption.

Aucune limite d'usage ni plafond de requêtes. Les services cloud brident les gros utilisateurs. L'IA locale vous laisse lancer des milliers de requêtes par jour, générer de longs documents ou boucler des inférences dans du code sans jamais buter sur un mur.

Une vitesse compétitive pour les prompts courts. L'inférence locale sur une puce M4 Pro génère des réponses en quelques millisecondes pour les prompts les plus courts, en supprimant la latence d'aller-retour réseau qu'ajoutent les API cloud.

Mac mini Apple Silicon sur un bureau, utilisé comme station de travail d'IA locale

Ce dont vous avez besoin avant de commencer

Une courte liste de vérification préalable :

Un Mac Apple Silicon. M1 ou plus récent. Les Mac Intel peuvent techniquement faire tourner une IA locale via llama.cpp, mais les performances sont médiocres sans mémoire unifiée ni accélération GPU. L'IA locale réellement exploitable commence avec le M1.
16 Go de RAM minimum. Les Mac de 8 Go peuvent exécuter de tout petits modèles 3B, mais rien de vraiment utile. 16 Go est le seuil pratique pour les modèles 7B à 8B. De 24 à 48 Go débloquent les modèles 14B à 32B qui approchent la qualité de GPT-4.
Environ 10 à 50 Go d'espace disque libre. Les fichiers de modèle vont de 2 Go (un modèle 3B) à 45 Go (un modèle 70B en quantification Q4).
macOS Sonoma ou plus récent. Les versions antérieures de macOS fonctionnent, mais sans certaines optimisations Metal.

Besoin de mettre à niveau ou d'acheter d'abord ? Consultez le meilleur Mac pour l'IA en 2026 pour les prix du reconditionné et les recommandations de puces.

Besoins en RAM selon la taille du modèle

Le fichier de modèle doit tenir dans votre mémoire unifiée, aux côtés de macOS, du cache KV (le stockage de la fenêtre de contexte) et de toutes les autres applications ouvertes. Une règle pratique : le fichier de modèle ne doit pas dépasser 60 à 70 pour cent de votre RAM totale.

Taille du modèle	RAM nécessaire	Exemples de modèles	Niveau de capacité
3B-4B	8 Go minimum	Llama 3.2 3B, Phi-4 Mini, Gemma 3 4B	Questions-réponses simples, résumés
7B-8B	16 Go minimum	Qwen 3 8B, Llama 3.1 8B, Mistral 7B	Discussion générale, aide au code, rédaction
12B-14B	24 Go minimum	Qwen 3 14B, DeepSeek-R1-Distill-14B	Raisonnement solide, rédaction professionnelle
30B-32B	36-48 Go	Qwen 3 32B, DeepSeek-R1-Distill-32B	Qualité proche de GPT-4 pour la plupart des tâches
70B	64-96 Go	Llama 3.3 70B, Qwen 2.5 72B	Niveau frontière, rivalise avec les modèles cloud
200B+	128 Go+	Qwen3 235B-A22B, DeepSeek V3 (quantifié)	Capacité maximale de niveau recherche

Une note sur la quantification : les modèles sont distribués dans différents formats de précision. Le Q4_K_M est le standard pour un usage local. Il fait passer un modèle 70B d'environ 140 Go (en float32 complet) à 40 ou 45 Go tout en conservant l'essentiel de la qualité. Le Q8 est de meilleure qualité, mais presque deux fois plus volumineux. À partir du Q3 et en dessous, on commence à voir une dégradation notable de la qualité sur les tâches de raisonnement complexes.

En pratique, retenez ceci : 16 Go est le minimum pour une IA réellement utile. De 24 à 48 Go ouvrent la porte aux modèles qui approchent la qualité de GPT-4. 64 Go ou plus permettent de faire tourner des modèles de niveau frontière, entièrement hors ligne.

Les 4 meilleurs outils pour faire tourner une IA sur Mac

Quatre outils dominent le paysage de l'IA locale sur Mac. Tous sont gratuits. Choisissez selon votre façon de travailler.

Ollama

Ollama est l'outil de référence des développeurs. Il tourne comme un service en arrière-plan et expose une API compatible OpenAI, ce qui signifie que vous pouvez pointer n'importe quelle application ou n'importe quel script utilisant le SDK OpenAI directement vers votre machine locale. L'installation tient en une commande dans le terminal. Le téléchargement des modèles est tout aussi simple : ollama pull qwen3:8b récupère et stocke le modèle automatiquement.

Ollama consomme environ 100 Mo de RAM en surcharge, prend en charge des dizaines de modèles depuis sa bibliothèque sur ollama.com et est sous licence MIT. C'est le meilleur choix pour les développeurs qui veulent intégrer l'IA locale dans des applications, faire tourner l'IA comme service backend ou automatiser des workflows via le terminal.

LM Studio

LM Studio est l'option la plus accessible pour quiconque veut une expérience visuelle à la ChatGPT. Il se présente comme une application macOS native, avec un navigateur de modèles, un gestionnaire de téléchargement et une interface de discussion complète. Vous n'avez pas besoin de toucher au terminal.

LM Studio prend en charge à la fois les modèles GGUF (avec llama.cpp en interne) et les modèles au format MLX. Les modèles MLX via LM Studio sont plus économes en mémoire et généralement 20 à 30 pour cent plus rapides sur Apple Silicon que leurs équivalents GGUF. L'application consomme environ 500 Mo de RAM en surcharge et est gratuite pour un usage personnel. C'est le meilleur choix pour les rédacteurs, les chercheurs, les utilisateurs non techniques et tous ceux qui veulent un remplaçant privé de ChatGPT.

MLX (le framework d'Apple)

MLX est le framework d'apprentissage automatique open source d'Apple, conçu spécifiquement pour Apple Silicon. Il expose des API Python, Swift, C++ et C, et offre l'inférence la plus rapide disponible sur le matériel Mac. MLX peut aussi affiner (fine-tuner) des modèles en local, ce qu'aucun autre outil de cette liste ne permet sans configuration supplémentaire.

La contrepartie est une courbe d'apprentissage plus raide : vous travaillez directement en Python ou en Swift plutôt qu'à travers une interface graphique. MLX est idéal pour les ingénieurs en apprentissage automatique, les chercheurs qui ont besoin de performances maximales et les développeurs qui conçoivent des applications nativement orientées IA pour les plateformes Apple.

llama.cpp

llama.cpp est le moteur d'inférence fondateur qui fait tourner Ollama en interne. Il offre un contrôle maximal sur chaque paramètre d'inférence : longueur de contexte, température, pénalité de répétition, taille de lot, et bien plus. Exécuter llama.cpp directement convient surtout aux utilisateurs avancés qui veulent régler chaque aspect du comportement du modèle et qui sont à l'aise avec un flux de travail en ligne de commande.

Guide de décision rapide : si vous écrivez du code, commencez par Ollama. Si vous voulez une application de discussion visuelle, commencez par LM Studio. Si vous avez besoin d'une vitesse maximale et que vous travaillez en Python, utilisez MLX directement.

Démarrage rapide : votre premier modèle local en 5 minutes

Le chemin le plus rapide pour faire tourner une IA locale sur Mac, c'est Ollama. De zéro à un modèle opérationnel en moins de cinq minutes.

Étape 1 : installez Ollama. Rendez-vous sur ollama.com et téléchargez l'application macOS. Faites-la glisser dans votre dossier Applications et ouvrez-la. Ollama tourne comme un service dans la barre de menus.

Étape 2 : ouvrez le Terminal et lancez votre premier modèle. Appuyez sur Commande + Espace, tapez « Terminal » puis Entrée. Saisissez ensuite l'une de ces commandes selon votre RAM :

Mac de 8 Go : ollama run llama3.2:3b
Mac de 16 Go : ollama run qwen3:8b
Mac de 24 Go : ollama run qwen3:14b
Mac de 48 Go et plus : ollama run qwen3:32b

Ollama télécharge le modèle automatiquement (en général de 2 à 20 Go selon la taille) et vous place dans une session de discussion interactive. Aucun compte requis. Aucune donnée envoyée où que ce soit.

Étape 3 : commencez à discuter. Tapez votre prompt et appuyez sur Entrée. La première réponse prend quelques secondes, le temps que le modèle se charge en mémoire. Les réponses suivantes démarrent immédiatement.

Vous préférez une interface visuelle ? Utilisez LM Studio. Aucun terminal requis :

Téléchargez LM Studio depuis lmstudio.ai et ouvrez-le.
Cliquez sur l'onglet Recherche, trouvez un modèle (Qwen 3 8B est un bon point de départ) et cliquez sur Télécharger.
Une fois le téléchargement terminé, cliquez sur Discussion dans la barre latérale, sélectionnez votre modèle et commencez à parler.

Les deux outils sont entièrement gratuits. Aucun abonnement, aucun compte, aucune donnée transmise à des serveurs externes.

Ollama faisant tourner Qwen 3 dans le Terminal macOS, illustrant l'inférence d'une IA locale

Tests de performance : à quoi s'attendre

Les vitesses réelles de génération de tokens varient selon la configuration, le modèle et le backend. Voici ce que les tests de la communauté ont régulièrement montré :

Configuration	Modèle	Backend	Vitesse (tokens/s)
M4 base 16 Go	Llama 3.2 3B Q4	Ollama	40-55
M3 Pro 36 Go	Llama 3.1 8B Q4	Ollama	25-35
M4 Pro 48 Go	Qwen 3 32B Q4	MLX	12-22
M4 Max 64 Go	Qwen 3 8B Q4	MLX	95-110
M4 Max 64 Go	Llama 3.3 70B Q4	Ollama	8-15
M3 Max 96 Go	Llama 3 70B Q4	Ollama	10-15
M2 Ultra 192 Go	Qwen3 235B Q4	MLX	environ 30

Pour replacer ces chiffres dans leur contexte : 15 à 20 tokens par seconde correspondent à une vitesse de lecture confortable pour la plupart des gens. Au-delà de 10 tokens par seconde, c'est parfaitement utilisable pour une discussion interactive. En dessous de 5 tokens par seconde, l'échange paraît nettement laborieux pour une conversation, même si cela reste exploitable pour du résumé par lots ou des tâches ponctuelles.

Le backend MLX est systématiquement 20 à 30 pour cent plus rapide que le backend llama.cpp d'Ollama sur le même matériel. Si la vitesse brute compte, utilisez des modèles au format MLX dans LM Studio ou via la bibliothèque Python MLX.

Une nuance importante : la bande passante mémoire compte davantage que la génération de puce pour la vitesse d'inférence. La génération de tokens nécessite de faire transiter en continu les poids du modèle par les unités de calcul. Un M3 Max avec 400 Go/s de bande passante génère des tokens plus vite qu'une puce M4 de base à 120 Go/s pour le même modèle, même si le M4 dispose d'un Neural Engine plus récent. Pour le détail complet de la bande passante par puce, consultez notre guide du meilleur Mac pour l'IA.

Les meilleurs modèles d'IA à faire tourner en local en 2026

Tous les modèles open source ne se valent pas. Voici les meilleures options par cas d'usage, testées et classées par la communauté début 2026 :

Cas d'usage	Modèle recommandé	RAM min	Pourquoi
Discussion générale	Qwen 3 8B Q4	16 Go	Le meilleur polyvalent à cette taille
Assistant de code	Qwen 2.5 Coder 32B Q4	48 Go	Meilleurs scores sur les tests de code
Raisonnement et maths	DeepSeek-R1-Distill-14B Q4	24 Go	Spécialiste du raisonnement pas à pas
Écriture créative	Llama 3.3 70B Q4	96 Go	Excellente production narrative longue
Travail sensible à la confidentialité	N'importe quel modèle local	16 Go+	Aucune transmission au cloud
Multilingue	Qwen 3 (toute taille)	16 Go+	Prend en charge nativement 29 langues ou plus

Les modèles sont hébergés sur Hugging Face et disponibles directement dans la bibliothèque de modèles d'Ollama et le navigateur de modèles de LM Studio. Vous n'avez pas besoin de vous rendre sur Hugging Face, sauf si vous cherchez des variantes spécialisées ou affinées.

Un bon point de départ pour la plupart des utilisateurs : Qwen 3 8B couvre la discussion générale, l'aide légère au code, le résumé et l'assistance à la rédaction dans un seul téléchargement de 5 Go qui tourne bien sur tout Mac doté de 16 Go de mémoire unifiée.

Résolution des problèmes courants

Le modèle se charge mais génère du charabia. Vous faites probablement tourner une quantification Q3 ou inférieure sur un modèle qui a besoin de Q4 ou plus pour conserver sa qualité. Re-téléchargez le modèle en Q4_K_M : dans Ollama, ollama pull qwen3:8b-q4_K_M. Dans LM Studio, filtrez la recherche de modèles sur Q4_K_M.

L'inférence est extrêmement lente. Ouvrez le Moniteur d'activité et regardez l'onglet GPU. Si l'utilisation du GPU est à zéro, le modèle tourne sur le processeur. Dans LM Studio, ouvrez les Réglages et activez Metal/MLX. Dans Ollama, assurez-vous d'avoir la dernière version : brew upgrade ollama ou téléchargez le dernier installateur depuis ollama.com.

Erreurs de mémoire insuffisante. Le modèle est trop volumineux pour votre RAM. Passez à un modèle plus petit (qwen3:8b au lieu de qwen3:14b) ou à une quantification plus basse (Q4 au lieu de Q8). Fermez les autres applications avant de charger le modèle.

La première réponse est lente, mais les suivantes sont rapides. C'est normal. Le modèle met quelques secondes à se charger en mémoire unifiée lors du premier prompt. Ensuite, les réponses démarrent immédiatement. macOS peut décharger le modèle de la mémoire après une période d'inactivité, ce qui déclenche un nouveau premier prompt lent.

Le processus Ollama refuse de s'arrêter. Quittez-le depuis l'icône de la barre de menus. Si cela échoue, tapez pkill ollama dans le Terminal.

Vous avez déjà un Mac ? Vous en voulez un plus puissant ?

Si votre Mac actuel manque de RAM et que vous ne pouvez pas faire tourner la taille de modèle dont vous avez réellement besoin, la mise à niveau est généralement le bon choix. La RAM d'Apple Silicon est soudée, donc le seul moyen d'ajouter de la mémoire est d'acheter un Mac neuf ou reconditionné.

Le reconditionné est le choix malin, car la puce et la bande passante mémoire ne vieillissent pas. Un MacBook Pro M4 Pro reconditionné avec 48 Go fait tourner les modèles à l'identique d'un neuf, souvent avec 30 à 40 pour cent de réduction par rapport au prix de détail. Consultez notre guide du meilleur Mac pour l'IA pour les prix du reconditionné en vigueur sur les configurations Mac mini, MacBook Pro et Mac Studio.

+1 offres

Mac mini

500 Go Disque dur
2,3 Ghz Intel Dual-Core i5 2e gen
2 Go de mémoire
Année 2011

Condition Bonne, par Darty

329€

Consulter les offres

+1 offres

Mac mini

512 Go SSD
Apple M1 with 8-core CPU, 8-core GPU
8 Go de mémoire
Année 2020

Condition Bonne, par reBuy

362€

neuf 1 029€ -65%

Consulter les offres

+1 offres

Mac mini

256 Go SSD
Apple M1 with 8-core CPU, 8-core GPU
8 Go de mémoire
Année 2020

Condition Excellente, par reBuy

394€

neuf 799€ -51%

Consulter les offres

Comparez tous les Reconditionnés Mac mini

Pour approfondir la longévité et la possession d'un Mac : combien de temps dure un MacBook, les MacBook reconditionnés en valent-ils la peine et l'intérêt du reconditionné pour l'économie circulaire.

Si vous êtes actuellement sur un ancien Mac Intel et que vous vous demandez si la mise à niveau en vaut la peine pour des charges de travail d'IA, notre guide sur les Mac Intel et leur obsolescence détaille l'écart de performances.

Questions fréquentes

Dernière mise à jour: 12 juin 2026 · Publié le: 18 mai 2026

Faire tourner une IA locale sur Mac : Ollama, LM Studio et modèles

Pourquoi faire tourner une IA en local sur votre Mac ?

Ce dont vous avez besoin avant de commencer

Besoins en RAM selon la taille du modèle