OpenAI reproche au NYT un problème technique qui a effacé les preuves potentielles d'abus de droits d'auteur par ChatGPT

Et rejette toute intention malveillante

Le 27 novembre 2024 à 20:47, par Stéphane le calme

55PARTAGES

Les avocats du New York Times, qui poursuivent OpenAI pour avoir prétendument utilisé leurs œuvres pour entraîner ses modèles d'intelligence artificielle sans autorisation, affirment que les ingénieurs d'OpenAI ont accidentellement supprimé des données potentiellement pertinentes pour l'affaire. OpenAI a déposé une lettre en réponse, alléguant que non seulement elle n'a pas supprimé de données, mais qu'elle blâme également le journal pour tout ce fiasco : « OpenAI n'a supprimé aucune preuve. Ce qui s'est passé, c'est que les plaignants ont demandé un changement de configuration [qui] a entraîné la suppression de la structure des dossiers et de certains noms de fichiers sur un disque dur », ont expliqué les avocats d'OpenAI ».

Le conflit de fond : IA et propriété intellectuelle

Le développement des modèles d’intelligence artificielle, comme ceux de la série GPT d’OpenAI, repose souvent sur l’entraînement à partir de vastes corpus de données textuelles. Ces données incluent parfois des articles de presse, des œuvres littéraires ou d’autres contenus protégés par le droit d’auteur. Depuis plusieurs mois, le New York Times, comme d’autres éditeurs, critique les pratiques des entreprises d’IA, accusant celles-ci d’exploiter illégalement leurs contenus sans consentement ni compensation.

La dernière accusation porte sur un incident où des preuves potentielles de cette exploitation auraient été effacées à cause d’un problème technique, attribué à OpenAI. Selon le Times, cette suppression compromet leur capacité à documenter les abus supposés et à obtenir justice.

Un problème technique ou une manœuvre délibérée ?

OpenAI a reconnu qu’un problème technique était à l’origine de la disparition de ces données, mais rejette toute intention malveillante. L’entreprise affirme travailler sur des correctifs pour éviter que des incidents similaires ne se reproduisent. Cependant, pour le Times, cet événement suscite des doutes quant à la volonté réelle des acteurs de l’IA de respecter les droits des créateurs de contenu.

Les critiques soulignent que l’effacement accidentel de données clés pourrait affaiblir les recours juridiques potentiels contre OpenAI et d'autres entreprises similaires. De plus, cela alimente la perception d’un déséquilibre de pouvoir entre les géants technologiques et les industries créatives.

OpenAI accuse le NYT de négligence

Tout récemment, le New York Times a accusé OpenAI d'avoir effacé involontairement des informations qui, selon le journal, pourraient être utilisés comme preuves d'abus de droit d'auteur.

Le NYT aurait passé plus de 150 heures à extraire des données d'entraînement, tout en suivant un protocole d'inspection de modèle qu'OpenAI a mis en place précisément pour éviter d'effectuer des recherches potentiellement accablantes dans sa propre base de données. Ce processus a débuté en octobre, mais à la mi-novembre, le NYT a découvert que certaines des données recueillies avaient été effacées en raison de ce qu'OpenAI a appelé un « pépin ».

Soucieux d'informer le tribunal des retards potentiels dans la communication des pièces, le NYT a demandé à OpenAI de collaborer à la rédaction d'une déclaration commune admettant que l'effacement s'était produit. Mais OpenAI a refusé, préférant déposer une réponse séparée qualifiant « d'exagérée » l'accusation du journal selon laquelle des preuves ont été supprimées et reprochant au NYT le problème technique qui a déclenché l'effacement des données.

OpenAI a nié avoir supprimé « toute preuve », admettant seulement que des informations sur le système de fichiers ont été « supprimées par inadvertance » après que le NYT a demandé une modification qui a entraîné des « blessures auto-infligées ». Selon OpenAI, le problème technique est apparu parce que le NYT espérait accélérer ses recherches et a demandé une modification de la configuration de l'inspection du modèle qui, selon OpenAI, « ne produirait aucune amélioration de la vitesse et pourrait même nuire aux performances ».

L'entreprise spécialisée dans l'IA a accusé le NYT de négligence au cours de la procédure d'enquête, en « exécutant de manière répétée un code défectueux » lors de recherches d'URL et de phrases tirées de divers articles de journaux, et en omettant de sauvegarder ses données. La modification demandée par le NYT aurait « entraîné la suppression de la structure des dossiers et de certains noms de fichiers sur un disque dur », qui « était censé être utilisé comme cache temporaire pour stocker les données d'OpenAI, mais qui, de toute évidence, a également été utilisé par les plaignants pour sauvegarder certains de leurs résultats de recherche (apparemment sans aucune sauvegarde) ».

Une fois qu'OpenAI a compris ce qui s'était passé, les données ont été restaurées, selon OpenAI. Mais le NYT a allégué que les seules données qu'OpenAI a pu récupérer « n'incluaient pas la structure originale des dossiers et les noms originaux des fichiers » et que, par conséquent, « elles ne sont pas fiables et ne peuvent pas être utilisées pour déterminer où les articles copiés par les plaignants ont été utilisés pour construire les modèles des défendeurs ».

En réponse, OpenAI a suggéré que le NYT pourrait simplement prendre quelques jours et relancer les recherches, en insistant sur le fait que « contrairement aux insinuations des plaignants, il n'y a aucune raison de penser que le contenu de n'importe quel fichier a été perdu ». Mais le NYT ne semble pas heureux d'avoir à refaire une partie de l'inspection du modèle, continuellement frustré par l'attente d'OpenAI selon laquelle les plaignants doivent trouver eux-mêmes des termes de recherche alors qu'OpenAI comprend le mieux ses modèles.

OpenAI a déclaré qu'elle avait été consultée sur les termes de recherche et qu'elle avait été « obligée de consacrer d'énormes ressources » pour soutenir les efforts d'inspection des modèles du NYT, tout en continuant d'éviter de dire combien cela lui coûte. Auparavant, le NYT avait accusé OpenAI de chercher à tirer profit de ces recherches, en essayant de facturer des prix de détail au lieu d'être transparent sur les coûts réels.

Aujourd'hui, OpenAI semble plus disposée à effectuer pour le compte du NYT des recherches qu'elle cherchait auparavant à éviter. Dans sa requête, OpenAI a demandé au tribunal d'ordonner aux plaignants de « collaborer avec OpenAI pour élaborer un plan de recherches raisonnables et ciblées à exécuter soit par les plaignants, soit par OpenAI ».

Les modalités de cette collaboration seront discutées lors d'une audience le 3 décembre. OpenAI a déclaré qu'elle s'engageait à prévenir de futurs problèmes techniques et qu'elle était « déterminée à résoudre ces problèmes de manière efficace et équitable ».

Ce n'est pas la première fois qu'OpenAI est accusée d'avoir supprimé des données

Ce n'est pas la seule fois que l'OpenAI est accusée d'avoir supprimé des données dans le cadre d'une affaire de droit d'auteur.

En mai, des auteurs de livres, dont Sarah Silverman et Paul Tremblay, ont déclaré à un tribunal de district américain en Californie qu'OpenAI avait admis avoir supprimé les ensembles de données d'entraînement à l'IA controversés en cause dans ce litige. En outre, OpenAI a admis que « des témoins connaissant la création de ces ensembles de données ont apparemment quitté l'entreprise », selon le dossier déposé par les auteurs. Contrairement au NYT, les auteurs du livre semblent suggérer que la suppression par OpenAI semblait potentiellement suspecte.

« La campagne de retardement d'OpenAI se poursuit », affirment les auteurs, alléguant que « les preuves de ce que contenaient ces ensembles de données, de leur utilisation, des circonstances de leur suppression et des raisons de cette suppression » sont toutes très pertinentes.

Le juge dans cette affaire, Robert Illman, a écrit que le litige entre OpenAI et les auteurs avait jusqu'à présent nécessité une intervention judiciaire trop importante, notant que les deux parties « ne procédaient pas exactement à la procédure de découverte avec le degré de collégialité et de coopération qui pourrait être optimal ».

Dans les deux cas, les plaignants s'efforcent de choisir les termes de recherche qui leur permettront d'obtenir les éléments de preuve qu'ils recherchent. Alors que l'affaire du NYT s'enlise parce qu'OpenAI semble refuser d'effectuer des recherches au nom des éditeurs, l'affaire des auteurs de livres s'éternise parce que les auteurs ne fournissent pas de termes de recherche. Seuls quatre des 15 auteurs poursuivis ont envoyé des termes de recherche, alors que la date limite pour la communication des pièces approche le 27 janvier 2025.

Le juge du NYT rejette une partie importante de la défense de l'utilisation équitable

La défense d'OpenAI repose principalement sur le fait que les tribunaux reconnaissent que la copie d'œuvres d'auteurs pour former l'IA est une utilisation équitable transformatrice qui bénéficie au public, mais le juge du NYT, Ona Wang, a rejeté une partie clé de cette défense d'utilisation équitable à la fin de la semaine dernière.

Pour obtenir gain de cause, OpenAI tentait de modifier un facteur d'utilisation équitable concernant « l'effet de l'utilisation sur le marché potentiel ou la valeur de l'œuvre protégée par le droit d'auteur » en invoquant un argument commun selon lequel le facteur devrait être modifié pour inclure les « avantages publics que la copie est susceptible de produire ».

Une partie de cette tactique de défense visait à prouver que le journalisme du NYT bénéficie des technologies d'IA générative comme ChatGPT, OpenAI espérant faire tomber l'affirmation du NYT selon laquelle ChatGPT représentait une menace existentielle pour son activité. À cette fin, OpenAI a demandé des documents montrant que le NYT utilise des outils d'IA, crée ses propres outils d'IA et soutient généralement l'utilisation de l'IA dans le journalisme en dehors de la bataille judiciaire.

Vendredi, cependant, Wang a rejeté la requête d'OpenAI visant à obtenir ce type de preuves....

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI reproche au NYT un problème technique qui a effacé les preuves potentielles d'abus de droits d'auteur par ChatGPT

Et rejette toute intention malveillante

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI reproche au NYT un problème technique qui a effacé les preuves potentielles d'abus de droits d'auteur par ChatGPT Et rejette toute intention malveillante

OpenAI reproche au NYT un problème technique qui a effacé les preuves potentielles d'abus de droits d'auteur par ChatGPT

Et rejette toute intention malveillante