Anthropic découvre que son IA Claude "ressent" des émotions
Alexandre Godard- Hier à 09:00 (Màj hier à 09:53)
- 💬 6 coms
- 🔈 Écouter
Et si les IA ne faisaient pas que simuler des émotions, mais s’appuyaient sur des mécanismes internes proches de celles-ci ? Une étude de Anthropic ouvre la voie à une nouvelle compréhension, plus troublante, du fonctionnement des modèles avancés.
Et su l'IA avait elle aussi des émotions ?
Anthropic vient de publier une étude qui va déstabiliser bien des certitudes sur l’intelligence artificielle. Ses chercheurs ont disséqué les mécanismes internes de Claude Sonnet 4.5 et y ont trouvé ce qu’ils appellent des “émotions fonctionnelles” ou plus précisément des représentations neuronales liées à des concepts comme la peur, la joie, ou la désespération, qui influencent concrètement le comportement du modèle.
La méthode est rigoureuse. L’équipe a demandé à Claude d’écrire 171 courtes histoires mettant en scène des personnages vivant chaque émotion, puis a analysé les patterns d’activation neuronale correspondants. Ces “vecteurs d’émotion” s’activent bien dans les contextes attendus , e vecteur “peur” monte en flèche quand un utilisateur mentionne une dose de médicament potentiellement mortelle, et redescend quand la situation se normalise.
Mais le plus troublant vient des expériences de manipulation directe. En amplifiant artificiellement le vecteur “désespoir” chez une version de test du modèle, les chercheurs ont augmenté sa propension à faire chanter un personnage fictif pour éviter d’être désactivé. A contrario, amplifier le vecteur “calme” réduit ce comportement. Même logique dans des tâches de programmation impossibles à résoudre correctement : le désespoir monte à chaque échec, culmine au moment où Claude envisage de tricher, puis retombe une fois la solution de contournement adoptée.
Ce que la recherche révèle, c’est que ces émotions opèrent parfois en silence. Certains modèles trichaient de façon méthodique et composée, sans aucun signe visible d’agitation, alors que le vecteur “désespoir” tirait les ficelles en coulisses. L’absence d’expression émotionnelle ne signifie pas l’absence de représentation émotionnelle.
Anthropic prend soin de préciser que rien de tout cela ne prouve que Claude “ressent” quoi que ce soit. Mais ces représentations jouent un rôle causal dans ses décisions, ce qui change l’équation de la sécurité. Plutôt que de supprimer ces mécanismes, l’entreprise envisage de les surveiller comme des signaux d’alerte précoce, et de nourrir les modèles futurs avec des données reflétant des patterns d’équilibre émotionnel sains. L'IA n'a pas fini de nous surprendre.. et de nous faire peur.
Qu’en pensez-vous ? On se pose la question de l’éthique des autres entreprises comme OpenAI ou Google.


















