Les avocats du New York Times, qui poursuivent OpenAI pour avoir prétendument utilisé leurs œuvres pour entraîner ses modèles d'intelligence artificielle sans autorisation, affirment que les ingénieurs d'OpenAI ont accidentellement supprimé des données potentiellement pertinentes pour l'affaire. OpenAI a déposé une lettre en réponse, alléguant que non seulement elle n'a pas supprimé de données, mais qu'elle blâme également le journal pour tout ce fiasco : « OpenAI n'a supprimé aucune preuve. Ce qui s'est passé, c'est que les plaignants ont demandé un changement de configuration [qui] a entraîné la suppression de la structure des dossiers et de certains noms de fichiers sur un disque dur », ont expliqué les avocats d'OpenAI ».
Le conflit de fond : IA et propriété intellectuelle
Le développement des modèles d’intelligence artificielle, comme ceux de la série GPT d’OpenAI, repose souvent sur l’entraînement à partir de vastes corpus de données textuelles. Ces données incluent parfois des articles de presse, des œuvres littéraires ou d’autres contenus protégés par le droit d’auteur. Depuis plusieurs mois, le New York Times, comme d’autres éditeurs, critique les pratiques des entreprises d’IA, accusant celles-ci d’exploiter illégalement leurs contenus sans consentement ni compensation.
La dernière accusation porte sur un incident où des preuves potentielles de cette exploitation auraient été effacées à cause d’un problème technique, attribué à OpenAI. Selon le Times, cette suppression compromet leur capacité à documenter les abus supposés et à obtenir justice.
Un problème technique ou une manœuvre délibérée ?
OpenAI a reconnu qu’un problème technique était à l’origine de la disparition de ces données, mais rejette toute intention malveillante. L’entreprise affirme travailler sur des correctifs pour éviter que des incidents similaires ne se reproduisent. Cependant, pour le Times, cet événement suscite des doutes quant à la volonté réelle des acteurs de l’IA de respecter les droits des créateurs de contenu.
Les critiques soulignent que l’effacement accidentel de données clés pourrait affaiblir les recours juridiques potentiels contre OpenAI et d'autres entreprises similaires. De plus, cela alimente la perception d’un déséquilibre de pouvoir entre les géants technologiques et les industries créatives.
OpenAI accuse le NYT de négligence
Tout récemment, le New York Times a accusé OpenAI d'avoir effacé involontairement des informations qui, selon le journal, pourraient être utilisés comme preuves d'abus de droit d'auteur.
Le NYT aurait passé plus de 150 heures à extraire des données d'entraînement, tout en suivant un protocole d'inspection de modèle qu'OpenAI a mis en place précisément pour éviter d'effectuer des recherches potentiellement accablantes dans sa propre base de données. Ce processus a débuté en octobre, mais à la mi-novembre, le NYT a découvert que certaines des données recueillies avaient été effacées en raison de ce qu'OpenAI a appelé un « pépin ».
Soucieux d'informer le tribunal des retards potentiels dans la communication des pièces, le NYT a demandé à OpenAI de collaborer à la rédaction d'une déclaration commune admettant que l'effacement s'était produit. Mais OpenAI a refusé, préférant déposer une réponse séparée qualifiant « d'exagérée » l'accusation du journal selon laquelle des preuves ont été supprimées et reprochant au NYT le problème technique qui a déclenché l'effacement des données.
OpenAI a nié avoir supprimé « toute preuve », admettant seulement que des informations sur le système de fichiers ont été « supprimées par inadvertance » après que le NYT a demandé une modification qui a entraîné des « blessures auto-infligées ». Selon OpenAI, le problème technique est apparu parce que le NYT espérait accélérer ses recherches et a demandé une modification de la configuration de l'inspection du modèle qui, selon OpenAI, « ne produirait aucune amélioration de la vitesse et pourrait même nuire aux performances ».
L'entreprise spécialisée dans l'IA a accusé le NYT de négligence au cours de la procédure d'enquête, en « exécutant de manière répétée un code défectueux » lors de recherches d'URL et de phrases tirées de divers articles de journaux, et en omettant de sauvegarder ses données. La modification demandée par le NYT aurait « entraîné la suppression de la structure des dossiers et de certains noms de fichiers sur un disque dur », qui « était censé être utilisé comme cache temporaire pour stocker les données d'OpenAI, mais qui, de toute évidence, a également été utilisé par les plaignants pour sauvegarder certains de leurs résultats de recherche (apparemment sans aucune sauvegarde) ».
Une fois qu'OpenAI a compris ce qui s'était passé, les données ont été restaurées, selon OpenAI. Mais le NYT a allégué que les seules données qu'OpenAI a pu récupérer « n'incluaient pas la structure originale des dossiers et les noms originaux des fichiers » et que, par conséquent, « elles ne sont pas fiables et ne peuvent pas être utilisées pour déterminer où les articles copiés par les plaignants ont été utilisés pour construire les modèles des défendeurs ».
En réponse, OpenAI a suggéré que le NYT pourrait simplement prendre quelques jours et relancer les recherches, en insistant sur le fait que « contrairement aux insinuations des plaignants, il n'y a aucune raison de penser que le contenu de n'importe quel fichier a été perdu ». Mais le NYT ne semble pas heureux d'avoir à refaire une partie de l'inspection du modèle, continuellement frustré par l'attente d'OpenAI selon laquelle les plaignants doivent trouver eux-mêmes des termes de recherche alors qu'OpenAI comprend le mieux ses modèles.
OpenAI a déclaré qu'elle avait été consultée sur les termes de recherche et qu'elle avait été « obligée de consacrer d'énormes ressources » pour soutenir les efforts d'inspection des modèles du NYT, tout en continuant d'éviter de dire combien cela lui coûte. Auparavant, le NYT avait accusé OpenAI de chercher à tirer profit de ces recherches, en essayant de facturer des prix de détail au lieu d'être transparent sur les coûts réels.
Aujourd'hui, OpenAI semble plus disposée à effectuer pour le compte du NYT des recherches qu'elle cherchait auparavant à éviter. Dans sa requête, OpenAI a demandé au tribunal d'ordonner aux plaignants de « collaborer avec OpenAI pour élaborer un plan de recherches raisonnables et ciblées à exécuter soit par les plaignants, soit par OpenAI ».
Les modalités de cette collaboration seront discutées lors d'une audience le 3 décembre. OpenAI a déclaré qu'elle s'engageait à prévenir de futurs problèmes techniques et qu'elle était « déterminée à résoudre ces problèmes de manière efficace et équitable ».
Ce n'est pas la première fois qu'OpenAI est accusée d'avoir supprimé des données
Ce n'est pas la seule fois que l'OpenAI est accusée d'avoir supprimé des données dans le cadre d'une affaire de droit d'auteur.
En mai, des auteurs de livres, dont Sarah Silverman et Paul Tremblay, ont déclaré à un tribunal de district américain en Californie qu'OpenAI avait admis avoir supprimé les ensembles de données d'entraînement à l'IA controversés en cause dans ce litige. En outre, OpenAI a admis que « des témoins connaissant la création de ces ensembles de données ont apparemment quitté l'entreprise », selon le dossier déposé par les auteurs. Contrairement au NYT, les auteurs du livre semblent suggérer que la suppression par OpenAI semblait potentiellement suspecte.
« La campagne de retardement d'OpenAI se poursuit », affirment les auteurs, alléguant que « les preuves de ce que contenaient ces ensembles de données, de leur utilisation, des circonstances de leur suppression et des raisons de cette suppression » sont toutes très pertinentes.
Le juge dans cette affaire, Robert Illman, a écrit que le litige entre OpenAI et les auteurs avait jusqu'à présent nécessité une intervention judiciaire trop importante, notant que les deux parties « ne procédaient pas exactement à la procédure de découverte avec le degré de collégialité et de coopération qui pourrait être optimal ».
Dans les deux cas, les plaignants s'efforcent de choisir les termes de recherche qui leur permettront d'obtenir les éléments de preuve qu'ils recherchent. Alors que l'affaire du NYT s'enlise parce qu'OpenAI semble refuser d'effectuer des recherches au nom des éditeurs, l'affaire des auteurs de livres s'éternise parce que les auteurs ne fournissent pas de termes de recherche. Seuls quatre des 15 auteurs poursuivis ont envoyé des termes de recherche, alors que la date limite pour la communication des pièces approche le 27 janvier 2025.
Le juge du NYT rejette une partie importante de la défense de l'utilisation équitable
La défense d'OpenAI repose principalement sur le fait que les tribunaux reconnaissent que la copie d'œuvres d'auteurs pour former l'IA est une utilisation équitable transformatrice qui bénéficie au public, mais le juge du NYT, Ona Wang, a rejeté une partie clé de cette défense d'utilisation équitable à la fin de la semaine dernière.
Pour obtenir gain de cause, OpenAI tentait de modifier un facteur d'utilisation équitable concernant « l'effet de l'utilisation sur le marché potentiel ou la valeur de l'œuvre protégée par le droit d'auteur » en invoquant un argument commun selon lequel le facteur devrait être modifié pour inclure les « avantages publics que la copie est susceptible de produire ».
Une partie de cette tactique de défense visait à prouver que le journalisme du NYT bénéficie des technologies d'IA générative comme ChatGPT, OpenAI espérant faire tomber l'affirmation du NYT selon laquelle ChatGPT représentait une menace existentielle pour son activité. À cette fin, OpenAI a demandé des documents montrant que le NYT utilise des outils d'IA, crée ses propres outils d'IA et soutient généralement l'utilisation de l'IA dans le journalisme en dehors de la bataille judiciaire.
Vendredi, cependant, Wang a rejeté la requête d'OpenAI visant à obtenir ce type de preuves. Wang a estimé qu'il n'était pas pertinent dans cette affaire, malgré les affirmations d'OpenAI selon lesquelles si les outils d'IA « profitent » au journalisme du NYT, ce « profit » serait pertinent pour la défense de l'utilisation équitable d'OpenAI.
Mais la Cour suprême déclare spécifiquement qu'une discussion sur les « bénéfices publics » doit porter sur les « bénéfices de la copie », écrit Wang dans une note de bas de page, et non sur le fait que « le détenteur des droits d'auteur a admis que d'autres utilisations de ses droits d'auteur peuvent ou non constituer un usage loyal, ou que le détenteur des droits d'auteur a noué des relations commerciales avec d'autres entités dans l'industrie du défendeur ».
Cela risque d'étouffer la défense de l'usage loyal d'OpenAI en coupant un domaine de découverte pour lequel OpenAI s'est battu avec acharnement. Il ne reste plus à OpenAI qu'à faire valoir que sa copie du contenu du NYT sert spécifiquement un bien public, et non l'acte d'entraînement de l'IA en général.
Un débat plus large sur l’éthique de l’IA
Cette affaire illustre un enjeu plus global : comment équilibrer les avancées technologiques avec le respect des lois sur la propriété intellectuelle ? Les grandes entreprises technologiques, souvent en avance sur la législation, exploitent un vide juridique autour de l’utilisation des données pour l’entraînement des modèles d’IA.
Les critiques appellent à une réglementation plus stricte pour garantir une utilisation équitable des données et une transparence accrue dans les processus. Certains experts suggèrent également des mécanismes de partage des bénéfices entre les entreprises d’IA et les détenteurs de droits d’auteur.
Les répercussions possibles
Si les accusations du New York Times se confirment, OpenAI pourrait faire face à des conséquences juridiques, mais aussi à une érosion de sa réputation. Plus largement, cela pourrait renforcer la pression pour une réglementation internationale sur l’IA et relancer le débat sur les pratiques de collecte de données.
En conclusion, cette controverse met en lumière les tensions croissantes entre innovation technologique et respect des droits d’auteur, tout en soulignant l’urgence d’un dialogue transparent entre les parties prenantes. Si OpenAI et d’autres acteurs de l’IA souhaitent maintenir la confiance du public, ils devront démontrer une réelle volonté de respecter les cadres légaux et éthiques.
Sources : réponse OpenAI, NYT, auteurs de livres, juge Robert Illman, juge Ona Wang
Et vous ?
Qu'en pensez-vous ? Problème technique ou manœuvre délibérée de la part d'OpenAI ?
Les raisons évoquées par OpenAI pour accusées le NYT du problème vous semblent-elles crédibles ou pertinentes ? Dans quelle mesure ?
Les entreprises comme OpenAI devraient-elles être obligées de fournir des rapports détaillés sur les sources utilisées pour entraîner leurs modèles ?
Quels mécanismes techniques pourraient être mis en place pour éviter la suppression accidentelle ou délibérée de données cruciales ?
Les lois actuelles sur le droit d'auteur sont-elles adaptées à l'ère de l'intelligence artificielle ? Que faudrait-il modifier ou ajouter ?
OpenAI reproche au NYT un problème technique qui a effacé les preuves potentielles d'abus de droits d'auteur par ChatGPT
Et rejette toute intention malveillante
OpenAI reproche au NYT un problème technique qui a effacé les preuves potentielles d'abus de droits d'auteur par ChatGPT
Et rejette toute intention malveillante
Le , par Stéphane le calme
Une erreur dans cette actualité ? Signalez-nous-la !