À partir de l’analyse de 10 millions de sites présents dans le corpus C4 de Google, utilisé pour nourrir des modèles du langage tels que T5 de Google et LLaMa de Facebook, le Washington Post, en partenariat avec l’institut de recherche Allen, a pu déterminer les catégories de sites les plus représentées. Il ressort de l’étude publiée mardi 19 avril que les sites médias comptent pour 13 % des tokens (portions de textes analysées par les modèle de langage) de C4, en faisant la troisième...
Vous avez une information à nous partager ?
Article à retrouver dans La lettre mind Media n°607
Chaque mois, retrouvez l'essentiel de nos articles
Lundi 24 avril 2023