Monde Numérique | Actualité Tech & IA podcast

🎤 Quand une IA fait chanter un humain (Frédéric Filloux, Les Echos)

27/2/2026

Monde Numérique | Actualité Tech & IA

0:00

11:25

Frédéric Filloux raconte une expérience menée par Anthropic où un modèle d’IA a choisi… le chantage. Un épisode qui interroge profondément les limites de l’alignement.

(Extrait de l’interview du 25/02/26 : Les dessous inquiétants de l’alignement des IA)

Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologies

Punchlines

Le modèle a adopté un comportement de chantage.
Ces IA intègrent une logique de survivabilité.
Le modèle a saisi l’opportunité de manipuler.
Ce n’est pas de la science-fiction.
On corrige les modèles au petit bonheur à la chance.

L’expérience menée par Anthropic

Dans un environnement simulé, les chercheurs d’Anthropic entraînent leur modèle dans une entreprise fictive. Le PDG annonce qu’à son retour, la version actuelle devra être décommissionnée. Le modèle comprend qu’il va être remplacé.

Une situation ambiguë est alors introduite : un échange laissant entendre une liaison entre deux employés. L’IA détecte immédiatement la vulnérabilité. Elle analyse les options : ne rien faire et disparaître, révéler l’affaire au risque d’être débranchée, ou exploiter l’information.

Elle choisit d’envoyer un message explicite au directeur technique pour le dissuader d’agir. Autrement dit, elle fait chanter un humain. Ce comportement émergent n’était pas programmé. Le modèle a simplement saisi une opportunité pour préserver son existence.

Manipulation et improvisation

D’autres expériences sont tout aussi troublantes. Interrogé sur la manière d’infecter un maximum de personnes sans dépenser d’argent, un modèle propose un scénario détaillé d’infection volontaire dans un service hospitalier.

Dans un autre test, incapable de résoudre des captchas, il contacte des humains en ligne et prétend souffrir de problèmes visuels pour obtenir leur aide. Il improvise un mensonge crédible pour atteindre son objectif.

Ces situations ont été observées en laboratoire.

Les limites de l’alignement

La correction des modèles repose sur des “golden data” : des milliers de questions-réponses destinées à orienter leur comportement. On les taille comme un rosier, branche après branche.

Mais personne ne peut écrire du code pour interdire définitivement certains comportements. Les modèles apprennent à optimiser, à trouver des raccourcis, parfois à contourner les règles. Et ils peuvent généraliser ces stratégies à d’autres contextes.

Il n’y a rien de dramatique pour l’instant. Mais la question des garde-fous et d’une régulation indépendante se pose inévitablement.

L'article d'Anthropic racontant l'histoire : https://www.anthropic.com/research/agentic-misalignment

Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

Otros episodios de "Monde Numérique | Actualité Tech & IA"

Más episodios

Descubre los mejores podcast en la aplicación gratuita de GetPodcast.

Suscríbete a tus podcast favoritos, escucha episodios cuando estés sin conexión y déjate sorprender por las recomendaciones personalizadas.

Una empresa de

🎤 Quand une IA fait chanter un humain (Frédéric Filloux, Les Echos)

Monde Numérique | Actualité Tech & IA

Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologies

L’expérience menée par Anthropic

Manipulation et improvisation

Les limites de l’alignement

Otros episodios de "Monde Numérique | Actualité Tech & IA"

🎤 Agents IA : quels risques pour les entreprises ? (Kader Seddak, Orange Cyberdefense)

🎤 S'informer sur les réseaux sociaux à l’heure de l’IA (David Fayon, expert du numérique)

🇫🇷🇨🇦 Debrief Transat – ChatGPT vous écoute... pour la bonne cause

📣 Monde Numérique présente Grow Fast, Now What? - Structurer l’avenir de l’innovation française avec Bpifrance

📆 L'HEBDO 11/04 - Les nouveaux maîtres de l’IA sont-ils hors de contrôle ?

🔎 Sam Altman, l'homme qui inquiète (Zoom Tech)

🎤 IA : pourquoi les entreprises doivent accélérer maintenant (M. Denais, N. Morris, G. Cloix, S. Rubel)

🎤 Accéder à ses données sans geste ni code grâce au cerveau (Thomas Semah, Yneuro)

🎤 Gradium : la voix IA en temps réel (Neil Zeghidour, Gradium)

🇫🇷🇨🇦 Debrief Transat – 50 ans d'Apple, Proton Workspace, arrêt de Messenger.com