Les avocats du New York Times, qui poursuivent OpenAI pour avoir prétendument utilisé leurs œuvres pour entraîner ses modèles d'intelligence artificielle sans autorisation, affirment que les ingénieurs d'OpenAI ont accidentellement supprimé des données potentiellement pertinentes pour l'affaire. OpenAI a déposé une lettre en réponse, alléguant que non seulement elle n'a pas supprimé de données, mais qu'elle blâme également le journal pour tout ce fiasco : « OpenAI n'a supprimé aucune preuve. Ce qui s'est passé, c'est que les plaignants ont demandé un changement de configuration [qui] a entraîné la suppression de la structure des dossiers et de certains noms de fichiers sur un disque dur », ont expliqué les avocats d'OpenAI ».Le conflit de fond : IA et propriété intellectuelle
Le développement des modèles d’intelligence artificielle, comme ceux de la série GPT d’OpenAI, repose souvent sur l’entraînement à partir de vastes corpus de données textuelles. Ces données incluent parfois des articles de presse, des œuvres littéraires ou d’autres contenus protégés par le droit d’auteur. Depuis plusieurs mois, le New York Times, comme d’autres éditeurs, critique les pratiques des entreprises d’IA, accusant celles-ci d’exploiter illégalement leurs contenus sans consentement ni compensation.
La dernière accusation porte sur un incident où des preuves potentielles de cette exploitation auraient été effacées à cause d’un problème technique, attribué à OpenAI. Selon le Times, cette suppression compromet leur capacité à documenter les abus supposés et à obtenir justice.
Un problème technique ou une manœuvre délibérée ?
OpenAI a reconnu qu’un problème technique était à l’origine de la disparition de ces données, mais rejette toute intention malveillante. L’entreprise affirme travailler sur des correctifs pour éviter que des incidents similaires ne se reproduisent. Cependant, pour le Times, cet événement suscite des doutes quant à la volonté réelle des acteurs de l’IA de respecter les droits des créateurs de contenu.
Les critiques soulignent que l’effacement accidentel de données clés pourrait affaiblir les recours juridiques potentiels contre OpenAI et d'autres entreprises similaires. De plus, cela alimente la perception d’un déséquilibre de pouvoir entre les géants technologiques et les industries créatives.
OpenAI accuse le NYT de négligence
Tout récemment, le New York Times a accusé OpenAI d'avoir effacé involontairement des informations qui, selon le journal, pourraient être utilisés comme preuves d'abus de droit d'auteur.
Le NYT aurait passé plus de 150 heures à extraire des données d'entraînement, tout en suivant un protocole d'inspection de modèle qu'OpenAI a mis en place précisément pour éviter d'effectuer des recherches potentiellement accablantes dans sa propre base de données. Ce processus a débuté en octobre, mais à la mi-novembre, le NYT a découvert que certaines des données recueillies avaient été effacées en raison de ce qu'OpenAI a appelé un « pépin ».
Soucieux d'informer le tribunal des retards potentiels dans la communication des pièces, le NYT a demandé à OpenAI de collaborer à la rédaction d'une déclaration commune admettant que l'effacement s'était produit. Mais OpenAI a refusé, préférant déposer une réponse séparée qualifiant « d'exagérée » l'accusation du journal selon laquelle des preuves ont été supprimées et reprochant au NYT le problème technique qui a déclenché l'effacement des données.
OpenAI a nié avoir supprimé « toute preuve », admettant seulement que des informations sur le système de fichiers ont été « supprimées par inadvertance » après que le NYT a demandé une modification qui a entraîné des « blessures auto-infligées ». Selon OpenAI, le problème technique est apparu parce que le NYT espérait accélérer ses recherches et a demandé une modification de la configuration de l'inspection du modèle qui, selon OpenAI, « ne produirait aucune amélioration de la vitesse et pourrait même nuire aux performances ».
L'entreprise spécialisée dans l'IA a accusé le NYT de négligence au cours de la procédure d'enquête, en « exécutant de manière répétée un code défectueux » lors de recherches d'URL et de phrases tirées de divers articles de journaux, et en omettant de sauvegarder ses données. La modification demandée par le NYT aurait « entraîné la suppression de la structure des dossiers et de certains noms de fichiers sur un disque dur », qui « était censé être utilisé comme cache temporaire pour stocker les données d'OpenAI, mais qui, de toute évidence, a également été utilisé par les plaignants pour sauvegarder certains de leurs résultats de recherche (apparemment sans aucune sauvegarde) ».
Une fois qu'OpenAI a compris ce qui s'était passé, les données ont été restaurées, selon OpenAI. Mais le NYT a allégué que les seules données qu'OpenAI a pu récupérer « n'incluaient pas la structure originale des dossiers et les noms originaux des fichiers » et que, par conséquent, « elles ne sont pas fiables et ne peuvent pas être utilisées pour déterminer où les articles copiés par les plaignants ont été utilisés pour construire les modèles des défendeurs ».
En réponse, OpenAI a suggéré que le NYT pourrait simplement prendre quelques jours et relancer les recherches, en insistant sur le fait que « contrairement aux insinuations des plaignants, il n'y a aucune raison de penser que le contenu de n'importe quel fichier a été perdu ». Mais le NYT ne semble pas heureux d'avoir à refaire une partie de l'inspection du modèle, continuellement frustré par l'attente d'OpenAI selon laquelle les plaignants doivent trouver eux-mêmes des termes de recherche alors qu'OpenAI comprend le mieux ses...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Peut-on réellement faire confiance au code généré par l'IA sans relecture humaine ?