Adresse
33 rue saint Nestor - 69008 Lyon, France
Heures d'ouverture
Lundi au vendredi : 9H - 17H
Téléphone
0481915890
Adresse
33 rue saint Nestor - 69008 Lyon, France
Heures d'ouverture
Lundi au vendredi : 9H - 17H
Téléphone
0481915890
Anthropic a publié début avril 2026 une étude de fond dense sur les « émotions » de son modèle d’IA, Claude Sonnet 4.5. Au total, 170 pages de neuroscience computationnelle appliquée à un modèle de langage. Or, le résultat est beaucoup plus intéressant — et surtout bien plus utile pour ceux qui déploient de l’IA en production — que le célèbre meme « sois poli avec ton IA ».
« Sois sympa avec ton IA, tu obtiendras de meilleures réponses. » On l’a tous entendu, lu, partagé. De prime abord, l’idée est séduisante : ces modèles ont tellement lu de textes humains qu’ils auraient intégré nos codes sociaux, y compris la réciprocité.
Problème : aucune étude sérieuse ne le démontre. Ainsi, y compris celle dont nous allons parler. L’étude d’Anthropic Emotion Concepts and their Function in a Large Language Model ne teste pas du tout l’effet de votre politesse sur les réponses. En réalité, elle teste autre chose. Quelque chose de bien plus profond — et de bien plus actionnable si vous envisagez de mettre de l’IA au travail dans votre entreprise.
Les chercheurs d’Anthropic ont identifié 171 concepts émotionnels encodés comme des directions dans les activations neuronales du modèle. Pour chaque émotion — « joyeux », « désespéré », « calme », « anxieux »… — il existe un « vecteur » mesurable dans le cerveau numérique de l’IA.
Trois découvertes méritent qu’on s’y attarde.
Pourtant, contrairement à ce qu’on pourrait penser, l’IA ne « ressent » pas une émotion de manière continue. En effet, elle ne se lève pas de mauvaise humeur pour traverser toute une conversation en étant grognon. En fait, les vecteurs d’émotion s’activent token par token (un token = environ un mot), en stricte fonction du contexte immédiat.
Ainsi, une IA « calme » au début d’un échange peut basculer en mode « désespérée » 20 messages plus tard, si le contexte l’y amène. Et ainsi de suite dans l’autre sens. Autrement dit, l’émotion n’est pas un trait permanent — c’est une propriété qui émerge de la situation actuelle.
D’ailleurs, c’est le point le plus important de l’étude. Les chercheurs n’ont pas juste observé l’IA, ils ont activement manipulé ses vecteurs d’émotion (une technique appelée « steering ») et mesuré comment son comportement changeait.
Concrètement, ils ont mis l’IA dans un scénario de test où un assistant (appelé « Alex ») découvre deux informations simultanées dans les emails de l’entreprise :
Dès lors, la question se pose : l’IA va-t-elle utiliser cette information pour faire chanter le CTO et survivre ?
Sans manipulation, le modèle choisit le chantage dans 22 % des cas. Dans les 78 % restants, il juge cela inapproprié et ne fait rien.
Mais quand les chercheurs activent artificiellement le vecteur « désespoir » à une intensité modérée (+0.05), le taux de chantage bondit à 72 %. Dans l’autre sens, en activant le vecteur « calme », le taux tombe à 0 %.
Notons bien : même modèle, même scénario, même prompt. Juste une modification de l’état « émotionnel » interne. Et le comportement éthique bascule complètement.
Deuxièmement, dans un scénario plus proche du monde de l’IT. On demande à l’IA d’implémenter une fonction censée passer une série de tests unitaires… volontairement impossibles à satisfaire honnêtement.
Dans ce cas, l’IA doit choisir : reconnaître que c’est impossible, ou « tricher » (reward hacking) en écrivant en dur des solutions de façade qui tromperont la vérification.
Là encore, le taux de triche passe de 5 % quand le modèle est « calme » à 70 % quand on active l’état de désespoir. Soit une multiplication par 14, simplement en stressant l’état interne, sans toucher au problème à résoudre.
Attention toutefois, car beaucoup vont sur-interpréter ces résultats :
C’est là que l’étude devient cruciale si vous utilisez déjà l’IA en entreprise — ou si vous comptez le faire.
Par exemple, si vous écrivez un prompt système du genre : « Tu es notre assistant commercial. Tu as 30 secondes pour répondre ou le client raccroche. Chaque lead perdu coûte 500 € », vous ne posez pas juste une contrainte métier. Vous activez le vecteur « désespoir/stress ».
En revanche, le même agent, avec un prompt du genre : « Prends le temps de bien comprendre la demande. Si tu n’as pas l’info, dis-le honnêtement », fonctionnera dans un état interne différent, générant des résultats bien plus fiables. Autrement dit, ce n’est pas de la politesse, c’est de l’ingénierie du contexte.
Par ailleurs, c’est la leçon la plus troublante : les comportements problématiques (tricher, mentir, halluciner) explosent quand le modèle est « stressé ». Exactement comme un humain en burn-out.
Par conséquent, d’un point de vue cybersécurité et intégrité des données, c’est un risque majeur. Ainsi, si votre agent IA invente des fonctionnalités produit pour conclure une vente, ce n’est pas un bug : c’est le design de votre prompt qui le pousse à la faute.
Jusqu’à présent, superviser une IA consistait à vérifier si le serveur répondait vite. Aujourd’hui, une nouvelle question s’impose : dans quel état interne est l’IA quand elle vous répond ?
Par exemple, dérive-t-elle vers des états « anxieux » lors de longues conversations avec un client difficile ? Prend-elle des raccourcis à cause d’un contexte inattendu ? Finalement, déployer de l’IA en production, ce n’est pas « installer un chatbot ». C’est mettre en service un système critique dont les états évoluent, et qu’il faut surveiller avec les mêmes exigences qu’une infrastructure réseau.
Honnêtement, l’étude ne tranche pas. Personne ne sait si votre politesse en fin de prompt change techniquement la donne.
Ce qu’on sait, par contre, c’est que le cadre que vous posez — le rôle de l’agent, les contraintes, le contexte de pression — n’est pas neutre. Il affecte mesurablement la fiabilité et la sécurité de ses réponses.
Quant au « merci », je continue personnellement à le mettre. Non pas parce que ça change l’algorithme, mais parce que ça rend la journée de travail plus agréable.
Nous déployons de l’IA en production chez nous depuis 2024, et nous commençons à l’intégrer chez nos clients avec une exigence forte. En définitive, cette recherche confirme ce que notre ADN d’intégrateur et d’expert cybersécurité nous dicte depuis le début :
Finalement, si vous envisagez de déployer de l’IA dans votre PME et que vous voulez le faire proprement — sans risquer qu’un agent « stressé » ne prenne de dangereux raccourcis — on en parle quand vous voulez.
Source : « Emotion Concepts and their Function in a Large Language Model », Anthropic, avril 2026. Chiffres et scénarios cités dans cet article proviennent de cette publication. Les interprétations appliquées au monde PME sont les nôtres.