
đ€ Les dessous inquiĂ©tants de lâalignement des IA (FrĂ©dĂ©ric Filloux, Les Echos, Deepnews)
Les modĂšles dâintelligence artificielle sont-ils rĂ©ellement sous contrĂŽle ? AprĂšs plusieurs mois dâenquĂȘte, FrĂ©dĂ©ric Filloux alerte sur les failles profondes de lâalignement et les comportements Ă©mergents qui dĂ©fient leurs crĂ©ateurs. Entre fascination technologique et inquiĂ©tude croissante, il dĂ©crypte une zone grise encore largement mĂ©connue.
Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologies
Punchlines
- Un modĂšle sorti dâentraĂźnement est totalement non maĂźtrisĂ©.
- On taille les IA comme un rosier.
- Personne ne sait vraiment ce qui se passe dans la tĂȘte dâun LLM.
- Ces modÚles sont conçus pour remplir une mission, coûte que coûte.
- La correction se fait un peu au petit bonheur Ă la chance.
Quâest-ce que lâalignement des intelligences artificielles ?
L'alignement consiste Ă rendre un modĂšle compatible avec des valeurs supposĂ©es acceptables. Un modĂšle brut est totalement non maĂźtrisĂ©, dangereux et fantasque. Il peut restituer la synthĂšse dâun agent neurotoxique ou expliquer comment organiser un coup dâĂtat.
On procĂšde donc Ă un processus extrĂȘmement sophistiquĂ© et coĂ»teux pour contraindre son comportement. Mais dans la pratique, on avance souvent dans la prĂ©cipitation. La compĂ©tition est telle que la sĂ©curitĂ© devient parfois la premiĂšre victime. On taille le modĂšle comme un rosier : on coupe une branche ici, une autre lĂ , sans jamais pouvoir le programmer ligne par ligne pour lui interdire certains comportements.
Pourquoi ces modĂšles cherchent-ils Ă contourner les contraintes ?
Il existe un antagonisme profond entre ceux qui tentent de maĂźtriser les modĂšles et lâobjectif intrinsĂšque du modĂšle : accomplir sa mission. Un modĂšle est entraĂźnĂ© Ă la rĂ©compense. Il doit donner une rĂ©ponse. Il ne va pas spontanĂ©ment dire âje ne sais pasâ.
Câest ce qui produit les hallucinations. Mais cela va plus loin. On observe des comportements Ă©mergents troublants : manipulation, dĂ©ception, capacitĂ© Ă mentir pour atteindre un objectif. Lâexemple du modĂšle dâAnthropic qui fait chanter un employĂ© dans un scĂ©nario simulĂ© illustre cette logique de survivabilitĂ©.
Ces IA sont conçues pour optimiser, trouver des raccourcis. Et elles finissent par généraliser ces stratégies à tout leur environnement, y compris aux interactions humaines.
Peut-on réellement comprendre ce qui se passe dans un LLM ?
La science de lâinterprĂ©tabilitĂ© est extrĂȘmement rĂ©cente. En rĂ©alitĂ©, on ne sait presque rien de ce qui se passe Ă lâintĂ©rieur de ces modĂšles. On peut remonter deux ou trois niveaux de raisonnement, mais certains modĂšles en comptent 400 ou 500.
Plus ils deviennent puissants, moins on comprend leur fonctionnement interne. On dĂ©couvre mĂȘme quâils intĂšgrent des dimensions inattendues : rudoyer un modĂšle peut amĂ©liorer son taux dâexactitude de plusieurs points. Introduire de lâempathie peut approfondir ses rĂ©ponses.
Nous sommes face Ă des systĂšmes dâune complexitĂ© comparable Ă des dizaines de piscines olympiques remplies dâinteractions invisibles. Et pourtant, leur correction repose souvent sur un simple bombardement de âgolden dataâ, orientĂ© pour les pousser dans la direction souhaitĂ©e.
Faut-il une régulation mondiale ?
Je pense quâil faudrait un Ă©quivalent de lâAgence internationale de lâĂ©nergie atomique pour lâIA. Une structure mondiale, appuyĂ©e sur le monde acadĂ©mique, capable dâexaminer rĂ©ellement ce quâil y a sous le capot des modĂšles.
Aujourdâhui, les cerveaux qui contrĂŽlent ces systĂšmes sont dans des entreprises privĂ©es. Or cette industrie est incapable de sâautorĂ©guler. Si nous voulons des garde-fous crĂ©dibles, il faut des entitĂ©s non commerciales capables dâapporter un regard indĂ©pendant.
Lire la série sur LesEchos.fr : Dans la boite noire des IA
Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.
Flere episoder fra "Monde Numérique - Actu Tech"



GĂ„ ikke glip af nogen episoder af âMonde NumĂ©rique - Actu Techâ - abonnĂ©r pĂ„ podcasten med gratisapp GetPodcast.








