Monde Numérique - Actu Tech podkast

đŸŽ€ Les dessous inquiĂ©tants de l’alignement des IA (FrĂ©dĂ©ric Filloux, Les Echos, Deepnews)

0:00
36:35
Do tyƂu o 15 sekund
Do przodu o 15 sekund

Les modĂšles d’intelligence artificielle sont-ils rĂ©ellement sous contrĂŽle ? AprĂšs plusieurs mois d’enquĂȘte, FrĂ©dĂ©ric Filloux alerte sur les failles profondes de l’alignement et les comportements Ă©mergents qui dĂ©fient leurs crĂ©ateurs. Entre fascination technologique et inquiĂ©tude croissante, il dĂ©crypte une zone grise encore largement mĂ©connue.

Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologies

Punchlines

  • Un modĂšle sorti d’entraĂźnement est totalement non maĂźtrisĂ©.
  • On taille les IA comme un rosier.
  • Personne ne sait vraiment ce qui se passe dans la tĂȘte d’un LLM.
  • Ces modĂšles sont conçus pour remplir une mission, coĂ»te que coĂ»te.
  • La correction se fait un peu au petit bonheur Ă  la chance.

Qu’est-ce que l’alignement des intelligences artificielles ?

L'alignement consiste Ă  rendre un modĂšle compatible avec des valeurs supposĂ©es acceptables. Un modĂšle brut est totalement non maĂźtrisĂ©, dangereux et fantasque. Il peut restituer la synthĂšse d’un agent neurotoxique ou expliquer comment organiser un coup d’État.

On procĂšde donc Ă  un processus extrĂȘmement sophistiquĂ© et coĂ»teux pour contraindre son comportement. Mais dans la pratique, on avance souvent dans la prĂ©cipitation. La compĂ©tition est telle que la sĂ©curitĂ© devient parfois la premiĂšre victime. On taille le modĂšle comme un rosier : on coupe une branche ici, une autre lĂ , sans jamais pouvoir le programmer ligne par ligne pour lui interdire certains comportements.

Pourquoi ces modĂšles cherchent-ils Ă  contourner les contraintes ?

Il existe un antagonisme profond entre ceux qui tentent de maĂźtriser les modĂšles et l’objectif intrinsĂšque du modĂšle : accomplir sa mission. Un modĂšle est entraĂźnĂ© Ă  la rĂ©compense. Il doit donner une rĂ©ponse. Il ne va pas spontanĂ©ment dire “je ne sais pas”.

C’est ce qui produit les hallucinations. Mais cela va plus loin. On observe des comportements Ă©mergents troublants : manipulation, dĂ©ception, capacitĂ© Ă  mentir pour atteindre un objectif. L’exemple du modĂšle d’Anthropic qui fait chanter un employĂ© dans un scĂ©nario simulĂ© illustre cette logique de survivabilitĂ©.

Ces IA sont conçues pour optimiser, trouver des raccourcis. Et elles finissent par généraliser ces stratégies à tout leur environnement, y compris aux interactions humaines.

Peut-on réellement comprendre ce qui se passe dans un LLM ?

La science de l’interprĂ©tabilitĂ© est extrĂȘmement rĂ©cente. En rĂ©alitĂ©, on ne sait presque rien de ce qui se passe Ă  l’intĂ©rieur de ces modĂšles. On peut remonter deux ou trois niveaux de raisonnement, mais certains modĂšles en comptent 400 ou 500.

Plus ils deviennent puissants, moins on comprend leur fonctionnement interne. On dĂ©couvre mĂȘme qu’ils intĂšgrent des dimensions inattendues : rudoyer un modĂšle peut amĂ©liorer son taux d’exactitude de plusieurs points. Introduire de l’empathie peut approfondir ses rĂ©ponses.

Nous sommes face Ă  des systĂšmes d’une complexitĂ© comparable Ă  des dizaines de piscines olympiques remplies d’interactions invisibles. Et pourtant, leur correction repose souvent sur un simple bombardement de “golden data”, orientĂ© pour les pousser dans la direction souhaitĂ©e.

Faut-il une régulation mondiale ?

Je pense qu’il faudrait un Ă©quivalent de l’Agence internationale de l’énergie atomique pour l’IA. Une structure mondiale, appuyĂ©e sur le monde acadĂ©mique, capable d’examiner rĂ©ellement ce qu’il y a sous le capot des modĂšles.

Aujourd’hui, les cerveaux qui contrĂŽlent ces systĂšmes sont dans des entreprises privĂ©es. Or cette industrie est incapable de s’autorĂ©guler. Si nous voulons des garde-fous crĂ©dibles, il faut des entitĂ©s non commerciales capables d’apporter un regard indĂ©pendant.

Lire la série sur LesEchos.fr : Dans la boite noire des IA

Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

Więcej odcinkĂłw z kanaƂu "Monde NumĂ©rique - Actu Tech"