Accueil > Médias & Audiovisuel > Une première piste pour déterminer si un texte a été utilisé pour l’entraînement d’une IA générative ? Une première piste pour déterminer si un texte a été utilisé pour l’entraînement d’une IA générative ? Par Paul Roy. Publié le 16 novembre 2023 à 18h04 - Mis à jour le 16 novembre 2023 à 18h34 Ressources Dans un article de recherche pre-print (c’est à dire pas encore publié par une revue de recherche) publié le 23 octobre et repéré par Le Monde, une équipe de chercheurs de l’Imperial College de Londres proposent une méthodologie pour identifier si un contenu textuel a été utilisé par une IA pour son entraînement. En se basant sur une comparaison du corpus d’apprentissage du modèle open source OpenLlama de Meta et de leur propre corpus de livres et d’articles scientifiques, ils sont capables de déterminer à 81 % si un livre a été vu par le modèle de langage, et à 63 % pour les articles scientifiques. À retenir. L’un des chercheurs interrogés par Le Monde indique qu’il est trop tôt pour savoir si cette méthodologie sera réplicable sur les articles de presse. Si pour le moment Google et OpenAI affichent une volonté de donner un moyen aux éditeurs d’empêcher le crawling de leurs articles via robots.txt, il est aujourd’hui très difficile de déterminer quels sont les contenus sur lesquels sont entraînés leurs modèles – bien que le futur règlement européen AI Act puisse potentiellement les obliger à communiquer leurs sources. Paul Roy IA générativeIntelligence artificielle Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Analyses Confidentiels [Info mind Media] IA générative : Alliance Digitale installe son groupe de travail Confidentiels [Info mind Media] Un nouvel acteur du text-to-speech en France IA générative : l’Autorité de la concurrence portugaise publie son analyse de marché [Etude mind Media] IA générative : 10,4 % des principaux sites médias ont intégré le TDMRep IA générative : une entreprise israélienne affirme retracer les sources utilisées pour créer une image Analyses Dossiers 20 exemples pour utiliser l’intelligence artificielle générative dans les médias essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction Adtech : pourquoi la Commission européenne sanctionne Google de près de 3 milliards d’euros Retail media : une consolidation indispensable des régies pour répondre aux attentes des acheteurs publicitaires IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers Droits voisins : l’Apig veut introduire une plainte contre Meta devant l'Autorité de la concurrence Paul Boulangé (Starcom France) : "Nous sommes en train de déployer Captiv8 en France, notre solution d'automatisation du marketing d'influence" Claire Léost devient DG de CMA Média, WPP Media promeut Stéphanie Robelus… Comment les SSP généralistes investissent le secteur du retail media Bénédicte Wautelet (Le Figaro) : “Toute solution qui utilise de l’IA en rapport avec nos contenus doit y être autorisée et nous rémunérer” Aides à la presse : combien les éditeurs ont-ils perçu en 2024 ? Le New York Times affiche toujours une croissance très robuste portée par le numérique data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?