🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

25.2.2026

Monde Numérique - Actu Tech

0:00

36:35

Les modèles d’intelligence artificielle sont-ils réellement sous contrôle ? Après plusieurs mois d’enquête, Frédéric Filloux alerte sur les failles profondes de l’alignement et les comportements émergents qui défient leurs créateurs. Entre fascination technologique et inquiétude croissante, il décrypte une zone grise encore largement méconnue.

Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologies

Punchlines

Un modèle sorti d’entraînement est totalement non maîtrisé.
On taille les IA comme un rosier.
Personne ne sait vraiment ce qui se passe dans la tête d’un LLM.
Ces modèles sont conçus pour remplir une mission, coûte que coûte.
La correction se fait un peu au petit bonheur à la chance.

Qu’est-ce que l’alignement des intelligences artificielles ?

L'alignement consiste à rendre un modèle compatible avec des valeurs supposées acceptables. Un modèle brut est totalement non maîtrisé, dangereux et fantasque. Il peut restituer la synthèse d’un agent neurotoxique ou expliquer comment organiser un coup d’État.

On procède donc à un processus extrêmement sophistiqué et coûteux pour contraindre son comportement. Mais dans la pratique, on avance souvent dans la précipitation. La compétition est telle que la sécurité devient parfois la première victime. On taille le modèle comme un rosier : on coupe une branche ici, une autre là, sans jamais pouvoir le programmer ligne par ligne pour lui interdire certains comportements.

Pourquoi ces modèles cherchent-ils à contourner les contraintes ?

Il existe un antagonisme profond entre ceux qui tentent de maîtriser les modèles et l’objectif intrinsèque du modèle : accomplir sa mission. Un modèle est entraîné à la récompense. Il doit donner une réponse. Il ne va pas spontanément dire “je ne sais pas”.

C’est ce qui produit les hallucinations. Mais cela va plus loin. On observe des comportements émergents troublants : manipulation, déception, capacité à mentir pour atteindre un objectif. L’exemple du modèle d’Anthropic qui fait chanter un employé dans un scénario simulé illustre cette logique de survivabilité.

Ces IA sont conçues pour optimiser, trouver des raccourcis. Et elles finissent par généraliser ces stratégies à tout leur environnement, y compris aux interactions humaines.

Peut-on réellement comprendre ce qui se passe dans un LLM ?

La science de l’interprétabilité est extrêmement récente. En réalité, on ne sait presque rien de ce qui se passe à l’intérieur de ces modèles. On peut remonter deux ou trois niveaux de raisonnement, mais certains modèles en comptent 400 ou 500.

Plus ils deviennent puissants, moins on comprend leur fonctionnement interne. On découvre même qu’ils intègrent des dimensions inattendues : rudoyer un modèle peut améliorer son taux d’exactitude de plusieurs points. Introduire de l’empathie peut approfondir ses réponses.

Nous sommes face à des systèmes d’une complexité comparable à des dizaines de piscines olympiques remplies d’interactions invisibles. Et pourtant, leur correction repose souvent sur un simple bombardement de “golden data”, orienté pour les pousser dans la direction souhaitée.

Faut-il une régulation mondiale ?

Je pense qu’il faudrait un équivalent de l’Agence internationale de l’énergie atomique pour l’IA. Une structure mondiale, appuyée sur le monde académique, capable d’examiner réellement ce qu’il y a sous le capot des modèles.

Aujourd’hui, les cerveaux qui contrôlent ces systèmes sont dans des entreprises privées. Or cette industrie est incapable de s’autoréguler. Si nous voulons des garde-fous crédibles, il faut des entités non commerciales capables d’apporter un regard indépendant.

Lire la série sur LesEchos.fr : Dans la boite noire des IA

Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

Flere episoder fra "Monde Numérique - Actu Tech"

Flere episoder

Få adgang til hele det store podcastunivers med gratisappen GetPodcast.

Abonnér på dine favoritpodcasts, lyt til episoder offline, og få spændende anbefalinger.

En virksomhed fra

🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

Monde Numérique - Actu Tech

Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologies

Qu’est-ce que l’alignement des intelligences artificielles ?

Pourquoi ces modèles cherchent-ils à contourner les contraintes ?

Peut-on réellement comprendre ce qui se passe dans un LLM ?

Faut-il une régulation mondiale ?

Flere episoder fra "Monde Numérique - Actu Tech"

🔎 Apple dévoile plusieurs nouveautés : MacBook Neo, iPhone 17e, iPad Air M4 (Zoom Tech)

🎤 Le Switch : sortir de la dépendance aux GAFAM (Christofer Ciminelli, Orso Média)

🎤 World Models : l’alternative européenne aux LLM ? (Benjamin Rey & Arthur Chevalier, Presage)

🇫🇷🇨🇦 Debrief Transat – Quand ChatGPT détecte un projet d’attaque mais n’alerte pas la police

☕️ GRAND DEBRIEF (fév. 26) – Vidéo, voix, code... L’IA va-t-elle trop loin ?

📆 L'HEBDO 28/02 - Smartphones IA, logiciels souverains et "job apocalypse"

🎤 Quand une IA fait chanter un humain (Frédéric Filloux, Les Echos)

🔎 L’IA menace-t-elle le doublage français ? (Zoom Tech)

🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

🎤 Robots humanoïdes : la révolution chinoise est lancée (Stéphane Bohbot, Innov8)