Accueil > Médias & Audiovisuel > Etude : les médias font partie des principales sources d’apprentissage des IA Etude : les médias font partie des principales sources d’apprentissage des IA Par Paul Roy. Publié le 20 avril 2023 à 16h26 - Mis à jour le 20 avril 2023 à 16h44 Ressources À partir de l’analyse de 10 millions de sites présents dans le corpus C4 de Google, utilisé pour nourrir des modèles du langage tels que T5 de Google et LLaMa de Facebook, le Washington Post, en partenariat avec l’institut de recherche Allen, a pu déterminer les catégories de sites les plus représentées. Il ressort de l’étude publiée mardi 19 avril que les sites médias comptent pour 13 % des tokens (portions de textes analysées par les modèle de langage) de C4, en faisant la troisième catégorie la plus présentes après les sites économiques et industriels (16 %) et les sites technologiques (15 %). Parmi les 10 premiers sites toutes catégories confondues en nombre de tokens, cinq sont des sites d’informations. À retenir. Ces chiffres donnent une indication sur l’importance des sites d’informations dans les modèles utilisés par certaines IA génératives, dans un contexte de flou autour du droit d’auteur. Le Washington Post note également la présence de sites “suprémacistes” et “promouvant des idéologies complotistes” dans la base, ce qui questionne sur les biais induits par les réponses des IA génératives. Paul Roy Droits voisinsIntelligence artificiellePQN Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Intelligence artificielle : en Australie, Google veut faire assouplir la loi sur le droit d’auteur Samsung envisage de remplacer Google par Bing comme moteur de recherche par défaut Tribunes gratuit “Une stratégie de contenus cohérente et ambitieuse est une urgence stratégique pour les marques” Entretiens Guillaume Avrin (Direction générale des entreprises) : “Dans le domaine de l’intelligence artificielle, la France et l’Europe peuvent assurer un leadership sur le BtoB” La Cnil saisie de deux plaintes relatives à ChatGPT Une ONG américaine dépose une plainte auprès de la FTC contre OpenAI essentiels Nos synthèses et chiffres sur les principales thématiques du marché Les mutations du search à l'ère de l'IA générative L'application inaboutie de la loi sur les droits voisins Google vs DOJ : tout ce qu'il faut savoir sur le procès qui pourrait redéfinir l'adtech L’essentiel sur les identifiants publicitaires La transformation du marché publicitaire en 2024 2023 : le marché publicitaire doit se préparer à la fin du tracking utilisateur Comment l’intelligence artificielle générative bouleverse les médias Les enjeux réglementaires des médias en 2023 analyses Les articles d'approfondissement réalisés par la rédaction Adtech : pourquoi la Commission européenne sanctionne Google de près de 3 milliards d’euros Retail media : une consolidation indispensable des régies pour répondre aux attentes des acheteurs publicitaires IA et monétisation des contenus : comment l’IAB Tech Lab veut contrôler les robots crawlers Droits voisins : l’Apig veut introduire une plainte contre Meta devant l'Autorité de la concurrence Paul Boulangé (Starcom France) : "Nous sommes en train de déployer Captiv8 en France, notre solution d'automatisation du marketing d'influence" Claire Léost devient DG de CMA Média, WPP Media promeut Stéphanie Robelus… Comment les SSP généralistes investissent le secteur du retail media Bénédicte Wautelet (Le Figaro) : “Toute solution qui utilise de l’IA en rapport avec nos contenus doit y être autorisée et nous rémunérer” Aides à la presse : combien les éditeurs ont-ils perçu en 2024 ? Le New York Times affiche toujours une croissance très robuste portée par le numérique data Les baromètres, panoramas et chiffres sur l'évolution du marché Le classement des éditeurs français qui ont le plus d'abonnés purs numériques Les données récoltées par les acteurs de la publicité en ligne La liste des sociétés présentes dans les fichiers ads.txt des éditeurs français Les gains de budget des agences médias Opt-out : quels éditeurs français interdisent les robots crawlers de l'IA générative ? Le panorama des sociétés spécialisées dans les technologies de l’e-retail media La liste des outils utilisés par les équipes éditoriales, marketing et techniques des éditeurs français Le détail des aides à la presse, année par année La liste des CMP choisies par les principaux médias en France Digital Ad Trust : quels sites ont été labellisés, pour quelles vagues et sur quel périmètre ?