Une première piste pour déterminer si un texte a été utilisé pour l'entraînement d’une IA générative ?

Dans un article de recherche pre-print (c’est à dire pas encore publié par une revue de recherche) publié le 23 octobre et repéré par Le Monde, une équipe de chercheurs de l’Imperial College de Londres proposent une méthodologie pour identifier si un contenu textuel a été utilisé par une IA pour son entraînement. En se basant sur une comparaison du corpus d’apprentissage du modèle open source OpenLlama de Meta et de leur propre corpus de livres et d’articles scientifiques, ils sont capables de déterminer à 81 % si un livre a été vu par le modèle de langage, et à 63 % pour les articles scientifiques.

À retenir. L’un des chercheurs interrogés par Le Monde indique qu’il est trop tôt pour savoir si cette méthodologie sera réplicable sur les articles de presse. Si pour le moment Google et OpenAI affichent une volonté de donner un moyen aux éditeurs d’empêcher le crawling de leurs articles via robots.txt, il est aujourd’hui très difficile de déterminer quels sont les contenus sur lesquels sont entraînés leurs modèles – bien que le futur règlement européen AI Act puisse potentiellement les obliger à communiquer leurs sources.

Paul Roy

Besoin d’informations complémentaires ?

Contactez

le service d’études à la demande de mind

À lire

Analyses Confidentiels

[Info mind Media] IA générative : Alliance Digitale installe son groupe de travail

Confidentiels

[Info mind Media] Un nouvel acteur du text-to-speech en France

IA générative : l’Autorité de la concurrence portugaise publie son analyse de marché

[Etude mind Media] IA générative : 10,4 % des principaux sites médias ont intégré le TDMRep

IA générative : une entreprise israélienne affirme retracer les sources utilisées pour créer une image

Analyses Dossiers

20 exemples pour utiliser l’intelligence artificielle générative dans les médias

Une première piste pour déterminer si un texte a été utilisé pour l’entraînement d’une IA générative ?

À lire