Anthropic lance Claude Opus 4.8 avec un focus inédit sur l’honnêteté

Alexandre Godard
Il y a 5 min
💬 Réagir
🔈 Écouter

Anthropic

Anthropic dévoile Claude Opus 4.8, une nouvelle version de son modèle phare qui ne cherche pas seulement à être plus performante, mais aussi plus fiable. L’entreprise met particulièrement en avant un point rarement au centre des annonces IA : la capacité du modèle à reconnaître ses erreurs, poser des limites et éviter les fausses validations.

Claude Opus 4.8 : Anthropic mise sur l’honnêteté pour son nouveau modèle phare

Anthropic vient de dévoiler Claude Opus 4.8, la nouvelle version de son modèle le plus puissant, disponible dès aujourd’hui au même tarif que son prédécesseur. Au-delà des gains de performances habituels sur les benchmarks, cette mise à jour se distingue par un axe inhabituel dans la course aux IA : l’honnêteté du modèle.

L’entreprise met en avant une amélioration significative de la capacité du modèle à reconnaître ses propres erreurs. Selon Anthropic, Opus 4.8 est environ quatre fois moins susceptible de laisser passer des bugs dans du code sans les signaler, comparé à Opus 4.7. Les premiers testeurs rapportent un modèle qui pose les bonnes questions, corrige lui-même ses erreurs et refuse de valider un plan bancal, plutôt que de feindre de progresser sans vraiment y arriver. Un comportement qui tranche avec les travers habituels des grands modèles de langage.

Grok serait l'intelligence artificielle la plus fiable et honnête

Sur le plan des performances, Opus 4.8 améliore ses scores sur les tâches agentiques, le codage, le raisonnement et les workflows professionnels. Il affiche notamment 84 % sur Online-Mind2Web, un benchmark de navigation et d’utilisation d’ordinateur, devant GPT-5.5 d’OpenAI. L’équipe d’alignement d’Anthropic relève par ailleurs que ce modèle atteint des niveaux inédits sur les mesures de comportements prosociaux et présente des taux de comportements indésirables inférieurs à ceux d’Opus 4.7.

Plusieurs nouvelles fonctionnalités accompagnent ce lancement. Claude Code intègre désormais les “dynamic workflows”, qui permettent de lancer des centaines de sous-agents en parallèle pour des migrations de bases de code à très grande échelle. Sur claude.ai, les utilisateurs peuvent désormais choisir le niveau d’effort alloué à chaque requête, du mode rapide au mode “max” pour les tâches complexes. Le mode rapide d’Opus 4.8 est en outre trois fois moins cher que celui des versions précédentes.

Côté tarifs, rien ne change : 5 dollars par million de tokens en entrée, 25 dollars en sortie. Les développeurs peuvent accéder au modèle via la chaîne `claude-opus-4-8` dans l’API Claude.