#22222 - Why wordfreq will not be updated · rspeer/wordfreq · GitHub
wordfreq is a Python library for looking up the frequencies of words in many languages, based on many sources of data.
Why wordfreq will not be updated : […] :
Generative AI has polluted the data
Ça commence. Cette lib contient des informations linguistiques sur la fréquence des mots dans une langue. Un peu comme les tables de fréquence des lettres (qui disent que la lettre « E » est la plus courante en français, suivies de A, I, S, N, R…), mais pour les mots.
Cette lib cessera d’être mise à jour avec de nouvelles sources de textes utilisées pour calculer ça.
La cause : de plus en plus de textes sont générées par des IA, dont le contenu n’est pas celui des humains, et donc faussent les résultats.
D’autres causes de l’arrêt du support sont la fermeture des plateformes qui servaient de sources de mots (Twitter, Reddit…) et le bordel ambiant autour de l’IA générative qui dégoûte l’auteur…
~
On en est donc à un point où non seulement on doit faire attention aux IA sur le fond (le contenu peut-être crédible, mais inventé) mais aussi la forme sur le plan technique (le contenu utilise des mots autrement qu’un humain).
Le truc c’est que ces textes légèrement absurdes finissent par retourner dans les moteurs d’IA, qui se servent des données pour en produire d’autre. J’imagine que faire ça suffisamment de fois en boucle produira du charabia, autrement du bruit. Juste du bruit blanc de fond.
C’est comme mon outil qui invente des mots (bien que je ne le considère aucunement comme une IA, la logique de base reste similaire). Pour faire des mots crédibles (mais faux), je ne juxtapose pas des lettres au hasard pour former des suites de lettres. J’utilise une table d’occurrence calculée d’après un dictionnaire de mots réels. En Français par exemple, le « Q » est très souvent suivi par un « U » (puis le « QU » souvent suivi par un I/E/A/…), et jamais par un « Z » ou « T ». Mon outil, grâce à ces tables, ne produira donc jamais de mots avec la suite « QZ ». Les « mots » ainsi générés, bien qu’inexistant, ont une consonance très française. Mon outil le fait également pour d’autres langues.
Maintenant, ça reste un outil probabiliste qui utilise des statistiques, et non des données naturelles (même si les stats sont basées sur ces données naturelles). Donc si j’alimente mon dictionnaire de mots avec des mots inventés par l’outil lui-même, et que je recalcule les tables, alors, après plusieurs bouclages comme ça, finira par produire n’importe quoi.
Il suffirait que dans une petite liste de mots (10 mots) une occurrence très rare (0,1 %) soit présente, pour que désormais cette occurrence soit de 10 %. Et ce 10 % se retrouvera dans les tables. C’est pour ça que j’utilise une table de ~200 000 à ~300 000 mots réels. Mais si j’injecte des faux mots au fur et à mesure, à un moment, ils dépasseront en nombre les mots réels, et la table deviendra peu à peu bidon, et de pire en pire. Et donc les mots également. Et ainsi de suite, avec un effet de boucle de rétroaction.
Et à la fin, on aura (je suppose, j’ai pas testé) soit un état d’équilibre qui tendra vers une situation avec une seule lettre dans tous les mots (« AAA », « AAAAA », ou alors des suites identiques partout : AZAZA, ou TMTMTM, ce genre de chose), soit du bruit blanc avec des séquences aléatoires.
Un système chaotique, en somme, qui tend alors soit vers situation d’équilibre stable, soit une situation non équilibrée. Et vu la sensibilité de ces systèmes, ça arrivera assez vite. Ça serait intéressant d’essayer, ceci dit.