Choses à Savoir - Culture générale podcast

Qu'est-ce que la “consanguinité de l'IA ?”

18.9.2025

Choses à Savoir - Culture générale

0:00

2:25

Imaginez une bibliothèque immense, remplie de millions de livres. Pendant des siècles, les humains y ont déposé leurs histoires, leurs savoirs, leurs idées. Puis, un jour, des machines ont commencé à écrire elles aussi. Et peu à peu, sans qu’on s’en rende compte, ces machines se sont mises à lire… leurs propres livres. C’est exactement ça, ce qu’on appelle la consanguinité de l’intelligence artificielle.

Au départ, les grands modèles comme ChatGPT ou Claude ont été entraînés sur des données humaines : articles de presse, forums, romans, encyclopédies, photos, vidéos. Une matière brute riche, variée, imparfaite mais authentique. Mais aujourd’hui, Internet est saturé de contenus générés par IA : textes, images, musiques. Et quand les nouvelles IA s’entraînent à leur tour, elles aspirent forcément une partie de ces contenus artificiels.

Le problème, c’est que ça crée une boucle fermée. En biologie, quand un groupe vit en vase clos et se reproduit entre lui, la diversité génétique s’appauvrit. On parle de consanguinité. Dans l’IA, c’est pareil : les modèles se nourrissent de leurs propres productions, et la diversité de leurs “idées” s’amenuise.

Les chercheurs observent déjà les dangers :

Appauvrissement des données : les textes produits par IA ont tendance à être plus lisses, plus standardisés. S’ils deviennent la norme, la richesse du langage décline.

Amplification des erreurs : si une IA se trompe et qu’une autre apprend de cette erreur, la faute se propage comme un virus.

Perte de créativité : à force de recycler les mêmes tournures et structures, les modèles finissent par répéter sans innover.

Et pire encore : certains scientifiques parlent de “model collapse”, un effondrement progressif où les IA produiraient des contenus incohérents, inutilisables.

Alors, que faire ? Une piste consiste à filtrer les données pour limiter l’entraînement sur du contenu artificiel. Une autre idée est de créer des “réserves” de savoir humain : des bibliothèques numériques protégées, un peu comme des banques de semences pour préserver la biodiversité, mais appliquées à la culture et au langage.

La question est cruciale, car plus l’IA avance, plus elle produit, et plus elle risque de s’auto-alimenter. Si on n’y prend pas garde, nous pourrions finir avec des machines qui parlent beaucoup… mais qui n’ont plus grand-chose à dire.

Alors, la prochaine fois que vous lisez un texte impeccable mais sans saveur, demandez-vous : est-ce la voix d’un humain… ou l’écho d’une machine qui n’a lu que ses propres mots ?

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.