Bienvenue !
Wikipédia fait le ménage dans ses sources pour écarter les faux sites créés par intelligence artificielle
4 minutes
Soutenez Artia13 sur Tipeee

C’est tout un travail de fourmis qui est en train de se dérouler en coulisses depuis le début du mois de février 2025, sur l’encyclopédie collaborative Wikipédia. Des Wikipédiens – du nom de ces bénévoles qui alimentent et régulent l’encyclopédie en ligne – sont en train de traquer des faux sites d’informations, notamment créés par intelligence artificielle, qui publient des articles plagiés ou inventés et qui sont cités comme des sources dans certaines pages. Problème : ces sources sont censées garantir une certaine fiabilité sur Wikipédia.

Près de 150 faux sites d’informations cités sur Wikipédia

Pour l’instant, près de 150 faux sites ont été identifiés dans les sources du Wikipédia, comme le rapporte ZDNet, un site spécialisé dans les actualités technologiques. Mais les bénévoles sont en train d’en passer 250 autres en revue.

Les Wikipédiens expliquent que “sur 148 sites analysés : 105 ont recours à de l’IA pour la rédaction des textes, 65 recourent au plagiat (avec ou sans traduction, avec ou sans reformulation par IA), 81 ne sont pas transparents (pas de mentions légales, mentions mensongères, auteurs fictifs, etc.), 51 sont des sites vampirisés, 7 ont fait l’objet de spam sur Wikipédia, 18 ont servi à des modifications promotionnelles sur Wikipédia”. Certains sites sont concernés par plusieurs de ces problématiques (leur liste détaillée se trouve ici).

Outre les sites utilisés à des fins promotionnelles, il est difficile de savoir pourquoi et comment ces faux sites d’information se sont retrouvés dans les sources de Wikipédia. Il est possible que des utilisateurs de l’encyclopédie les aient cités en pensant qu’il s’agissait de véritables sites d’actualités.

Plus de 1500 faux sites d’infos générés par IA

Les Wikipédiens ont été alertés de ce problème par le journaliste Jean-Marc Manach, spécialisé dans la vérification d’information, et qui a commencé à enquêter à l’automne 2024 sur des faux sites générés par IA. Pour le média Next, et en collaboration avec le journal Libération, il a fouillé internet pendant plusieurs mois et a relevé à la main une multitude de sites créés par intelligence artificielle. Lors de la publication de leur enquête journalistique conjointe il y a une semaine, les deux médias titraient que plus de 1 000 faux sites créés par IA avaient été repérés. Quelques jours plus tard, Next annonçait en avoir en fait détecté plus de 1 500.

Ces faux sites d’information sont un problème de fond et d’ampleur. Ils ressemblent trait pour trait à de vrais sites de médias et semblent publier de vrais articles. Ils ont aussi des noms crédibles, tels que actualites-sante.com, varactu.fr dont le nom ressemble à celui du journal Var Matin, ouestmedias.net qui reprend un peu le nom du vrai média Ouest France, siences-et-democratie.net, dernieres-nouvelles.com qui reprend le nom du quotidien Dernières nouvelles d’Alsace. Il est facile de s’y tromper. Selon Libération, trois de ces milliers de faux sites d’information sont dans le Top 100 des sites d’actualité les plus consultés en France, d’après le classement de Similarweb.



Aller à la source

Plugin WordPress Cookie par Real Cookie Banner