Le New York Times peine à rassembler des preuves contre OpenAI

La procédure engagée par le New York Times contre OpenAI pour violation du droit d'auteur dans le cadre de l'entraînement de ses modèles d'IA générative, est semée d'embuches, techniques mais aussi juridiques. Une première décision judiciaire rendue dans une autre affaire pourrait avoir un impact sur l'issue du dossier.

Après trois semaines d’examen des données d’entraînement des modèles GPT, dans le cadre de la plainte qui l’oppose à OpenAI et Microsoft qu’il accuse d’avoir utilisé des contenus protégés par le droit d’auteur, le New York Times déplore des “obstacles” techniques et des “obstructions” l’empêchant de mener correctement à bien ses recherches. Il a demandé au juge le 1er novembre d’ordonner qu’OpenAI fournisse lui-même ces informations. Les plaignants affirment avoir déjà découvert “des millions” de contenus leur appartenant. OpenAI, de son côté, déclare avoir mis à disposition le hardware et le software nécessaires pour explorer ces “centaines de terabytes de données”, mais regrette des “centaines de requêtes non pertinentes” de la part des éditeurs, qui ont retardé le processus.

La publication des résultats du New York Times, le 4 novembre, a révélé que l’éditeur du quotidien américain avait déjà dépensé 7,6 millions de dollars depuis neuf mois pour sa procédure judiciaire contre OpenAI et Microsoft.

Une première victoire en justice pour OpenAI

Selon une étude de Ziff Davis relayée par Axios, les LLM s’appuient 5 à 100 fois plus sur le contenu des éditeurs premium que sur le reste du web pour entraîner leurs modèles.

Mais la démonstration du préjudice, condition sine qua non pour convaincre un juge, sera difficile à réaliser pour les éditeurs. Contrairement à un plagiat, les réponses apportées par les IA génératives sont des synthèses qui réarrangent un agrégat d’informations utilisées pendant la phase d’entraînement. Récemment, un tribunal de New York a rejeté la plainte de Raw Story Media et AlterNet Media contre OpenAI, au motif que le préjudice direct ne pouvait pas être identifié. Les deux éditeurs s’appuyaient sur une disposition du Digital millenium copyright act, qui empêche de supprimer ou d’altérer les moyens d’identification de l’auteur d’une oeuvre (nom, titre, métadonnées…) sans autorisation. Cette décision pourrait faire jurisprudence, explique VentureBeat.

Raphaële Karayan