Ollama adopte MLX et accélère les modèles d’IA sur Mac
- 👨 Alban Martin
- Il y a 4 heures
- 💬 Réagir
Pourquoi c’est une grosse mise à jour ?
Jusqu’à présent, faire tourner un LLM (Large Language Model) en local sur un Mac pouvait être limité par la consommation de mémoire et la vitesse de génération. Grâce à l’architecture de mémoire unifiée d’Apple et à l’optimisation MLX, Ollama profite pleinement du GPU et des Neural Engines des puces M-series, notamment sur les derniers modèles en date.
Selon Ollama, cette intégration apporte :
- Une accélération significative du temps jusqu’au premier token (TTFT)
- Une vitesse de génération de tokens par seconde nettement plus élevée
- De meilleures performances globales, surtout sur les puces M5, M5 Pro et M5 Max
Cela rend l’utilisation de modèles locaux beaucoup plus agréable, que ce soit pour des assistants personnels (comme OpenClaw) ou des agents de codage (type Claude Code, OpenCode ou Codex).
Une condition importante : la RAM
Ollama recommande toutefois d’avoir un Mac avec au moins 32 Go de mémoire unifiée pour profiter pleinement des gains de performance. En dessous de cette quantité, l’expérience risque d’être moins fluide avec les modèles les plus lourds. Et c'est déjà un exploit que le système tourne très bien avec 32 Go de RAM.
Comment en profiter ?
- Téléchargez la version preview d’Ollama 0.19 sur le site officiel.
- Installez-la sur votre Mac Apple Silicon.
- Lancez vos modèles préférés (Llama, Mistral, Gemma, Phi, etc.) comme d’habitude.
L’application reste gratuite sur le site officiel, open-source et fonctionne entièrement en local, sans connexion internet une fois les modèles téléchargés.