• Contenus gratuits
  • Notre offre
Menu
  • Ressources
    • Toutes les ressources
  • Infos
    • Toutes les infos
  • Essentiels
    • Tous les essentiels
  • Analyses
    • Toutes les analyses
  • Data
    • Data
  • Newsletters
  • Profil
    • Je teste 15 jours
    • Je me connecte
  • Profil
    • Mon profil
    • Je me déconnecte
CLOSE

Accueil > Médias & Audiovisuel > Une première piste pour déterminer si un texte a été utilisé pour l’entraînement d’une IA générative ?

Une première piste pour déterminer si un texte a été utilisé pour l’entraînement d’une IA générative ?

Par Paul Roy. Publié le 16 novembre 2023 à 18h04 - Mis à jour le 16 novembre 2023 à 18h34
  • Ressources

Dans un article de recherche pre-print (c’est à dire pas encore publié par une revue de recherche) publié le 23 octobre et repéré par Le Monde, une équipe de chercheurs de l’Imperial College de Londres proposent une méthodologie pour identifier si un contenu textuel a été utilisé par une IA pour son entraînement. En se basant sur une comparaison du corpus d’apprentissage du modèle open source OpenLlama de Meta et de leur propre corpus de livres et d’articles scientifiques, ils sont capables de déterminer à 81 % si un livre a été vu par le modèle de langage, et à 63 % pour les articles scientifiques.

À retenir. L’un des chercheurs interrogés par Le Monde indique qu’il est trop tôt pour savoir si cette méthodologie sera réplicable sur les articles de presse. Si pour le moment Google et OpenAI affichent une volonté de donner un moyen aux éditeurs d’empêcher le crawling de leurs articles via robots.txt, il est aujourd’hui très difficile de déterminer quels sont les contenus sur lesquels sont entraînés leurs modèles – bien que le futur règlement européen AI Act puisse potentiellement les obliger à communiquer leurs sources.

Paul Roy
  • IA générative
  • Intelligence artificielle

Besoin d’informations complémentaires ?

Contactez Mind Research

le service d’études à la demande de mind

À lire

Analyses Confidentiels

[Info mind Media] IA générative : Alliance Digitale installe son groupe de travail 

Confidentiels

[Info mind Media] Un nouvel acteur du text-to-speech en France

IA générative : l’Autorité de la concurrence portugaise publie son analyse de marché

[Etude mind Media] IA générative : 10,4 % des principaux sites médias ont intégré le TDMRep

IA générative : une entreprise israélienne affirme retracer les sources utilisées pour créer une image

Analyses Dossiers

20 exemples pour utiliser l’intelligence artificielle générative dans les médias

essentiels

Nos synthèses et chiffres sur les principales thématiques du marché

Les mutations du search à l'ère de l'IA générative

L'application inaboutie de la loi sur les droits voisins

Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech

L’essentiel sur les identifiants publicitaires 

La transformation du marché publicitaire en 2024

2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur

Comment l’intelligence artificielle générative bouleverse les médias

Les enjeux réglementaires des médias en 2023

analyses

Les articles d'approfondissement réalisés par la rédaction

L’Apig et le SEPM fustigent le discours de Google concernant l’absence de l’AI Mode en France

L'IA tient-elle ses promesses dans le marketing et l'achat média ?

L’IA dans les rédactions : les exemples de l’AFP, Ouest-France et Humanoid 

Synthèse de l'étude mind Media-366 sur l’IA générative appliquée à la recherche, aux médias et à la publicité

INFO MIND MEDIA - Yahoo lance un plan social en France pour se séparer de son équipe éditoriale

Baromètre RECMA - mind Media : le bilan des gains de budgets en France depuis début 2025

Heikel Manai (France Télévisions) : “En matière d’IT, un dogmatisme 100% européen serait contre-productif”

INFO MIND MEDIA - L’Équipe gagne son match judiciaire contre Fedcom Media

CGV 2026 des régies TV : un pas supplémentaire vers la simplification du trading

Mara Negri (EBX) : “Notre objectif est de proposer des inventaires BVOD et CTV dans l’ensemble des pays européens"

data

Les baromètres, panoramas et chiffres sur l'évolution du marché

Le classement des éditeurs français qui ont le plus d'abonnés purs numériques

Les données récoltées par les acteurs de la publicité en ligne

La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français

Les gains de budget des agences médias

Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ?

Le panorama des sociétés spécialisées dans les technologies de l’e-retail media

La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français

Le détail des aides à la presse, année par année

La liste des CMP choisies par les principaux médias en France

Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?

Réserve ta place dès maintenant pour le mind Media Day J'en profite
  • Le groupe mind
  • Nos activités
  • Notre histoire
  • Notre équipe
  • Nos clients
  • Nos services
  • mind Media
  • mind Fintech
  • mind Health
  • mind Rh
  • mind Retail
  • mind Research
  • Les clubs
  • mind et vous
  • Présentation
  • Nous contacter
  • Vous abonner
  • A savoir
  • Mentions légales
  • CGU
  • CGV
  • CGV publicité
  • Politique des cookies
Tous droits réservés - Frontline MEDIA 2025
Social Media Auto Publish Powered By : XYZScripts.com
  • Twitter
  • LinkedIn
  • Email