OpenAI aurait accidentellement supprimé des preuves potentielles dans le procès intenté par le New York Times

Sur les violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner ChatGPT

Le 21 novembre 2024 à 21:17, par Stéphane le calme

80PARTAGES

Dans une affaire qui suscite l'attention à l'intersection de la technologie et du droit d'auteur, OpenAI se retrouve au cœur d'une controverse juridique avec le New York Times. OpenAI, connue pour ses modèles de langage avancés comme ChatGPT, est accusée d’avoir utilisé des contenus du Times pour entraîner ses systèmes sans autorisation. Alors que le procès avance, une nouvelle révélation complique encore davantage la position d’OpenAI : l’entreprise aurait accidentellement supprimé des preuves potentielles cruciales.

Un litige déjà complexe

Le New York Times accuse OpenAI de violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner des modèles d'IA. Ce type d'entraînement, connu sous le nom de data scraping ou d'extraction de données, consiste à collecter des informations sur Internet pour améliorer les performances des modèles. Cependant, cette pratique soulève des questions juridiques sur les droits des créateurs de contenu.

Dans ce contexte, les tribunaux s'appuient souvent sur des preuves détaillant la manière dont les données ont été collectées, stockées et utilisées. Ces preuves peuvent inclure des logs d'activité, des bases de données ou même des captures d'écran montrant les processus internes des entreprises.

La suppression accidentelle

Selon des documents judiciaires récents, OpenAI aurait supprimé des informations importantes qui auraient pu être utilisées comme preuve dans l'affaire. Bien que l’entreprise affirme que cette suppression n’était pas intentionnelle, elle pourrait avoir des répercussions importantes sur le déroulement du procès.

L’absence de ces preuves pourrait donner l'impression qu'OpenAI n’a pas pris suffisamment au sérieux ses obligations légales en matière de conservation des données, notamment dans le cadre d’un litige aussi sensible. De plus, cela pourrait compliquer la tâche des juges et des avocats pour évaluer objectivement la légitimité des allégations du New York Times.

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge

L'affaire en question

Les avocats du New York Times et du Daily News, qui poursuivent OpenAI pour avoir prétendument utilisé leurs œuvres pour entraîner ses modèles d'intelligence artificielle sans autorisation, affirment que les ingénieurs d'OpenAI ont accidentellement supprimé des données potentiellement pertinentes pour l'affaire.

Au début de l'automne, OpenAI a accepté de fournir deux machines virtuelles afin que les avocats du Times et du Daily News puissent effectuer des recherches sur leurs contenus protégés par le droit d'auteur dans les jeux d'entraînement de l'IA. Dans une lettre, les avocats des éditeurs déclarent qu'ils ont passé, avec les experts qu'ils ont engagés, plus de 150 heures depuis le 1^er novembre à rechercher les données d'entraînement d'OpenAI.

Mais le 14 novembre, les ingénieurs d'OpenAI ont effacé toutes les données de recherche des éditeurs stockées sur l'une des machines virtuelles, selon la lettre susmentionnée, qui a été déposée au tribunal de district des États-Unis pour le district sud de New York mercredi.

OpenAI a tenté de récupérer les données, avec succès. Cependant, la structure des dossiers et les noms de fichiers ayant été « irrémédiablement » perdus, les données récupérées « ne peuvent pas être utilisées pour déterminer où les articles copiés par les plaignants ont été utilisés pour construire les modèles [d'OpenAI] », selon la lettre.

Dans cette affaire et dans d'autres, OpenAI a soutenu que l'entraînement de modèles à l'aide de données accessibles au public - y compris des articles du Times et du Daily News - constituait un usage loyal. En d'autres termes, en créant des modèles tels que GPT-4o, qui « apprennent » à partir de milliards d'exemples de livres électroniques, d'essais et autres pour générer des textes à consonance humaine, OpenAI estime qu'elle n'est pas tenue de concéder des licences ou de payer pour ces exemples, même si elle gagne de l'argent grâce à ces modèles.

Cela dit, OpenAI a conclu des accords de licence avec un nombre croissant de nouveaux éditeurs, dont l'Associated Press, Axel Springer, propriétaire de Business Insider, le Financial Times, Dotdash Meredith, société mère de People, et News Corp. OpenAI a refusé de rendre publiques les conditions de ces accords, mais l'un des partenaires de contenu, Dotdash, recevrait au moins 16 millions de dollars par an.

« Les plaignants ont été contraints de recréer leur travail à partir de zéro en utilisant un nombre important d'heures de travail et de temps de traitement informatique », ont écrit les avocats du Times et du Daily News. « Les plaignants n'ont appris qu'hier que les données récupérées étaient inutilisables et qu'une semaine entière de travail de leurs experts et avocats devait être refaite, ce qui explique pourquoi cette lettre complémentaire est déposée aujourd'hui ».

Les avocats des plaignants précisent qu'ils n'ont aucune raison de croire que la suppression était intentionnelle. Mais ils affirment que l'incident souligne qu'OpenAI « est la mieux placée pour rechercher dans ses propres ensembles de données » des contenus potentiellement illicites à l'aide de ses propres outils.

Les enjeux pour OpenAI et l’industrie

Ce litige dépasse le simple conflit entre OpenAI et le New York Times. Il met en lumière un enjeu fondamental dans l’industrie de l’intelligence artificielle : le respect des droits des créateurs de contenu face à une technologie qui s’appuie massivement sur des données préexistantes.

Si le tribunal décide en faveur du Times, cela pourrait créer un précédent juridique contraignant pour OpenAI et d'autres entreprises développant des modèles d'IA. Ces entreprises pourraient être obligées d’instaurer des pratiques de transparence accrues, notamment en matière de collecte et d’utilisation des données.

OpenAI estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement »

La formation des modèles d’IA, tels que ceux développés par OpenAI, nécessite une quantité massive de données. Selon OpenAI, les matériaux disponibles dans le domaine public ne suffisent pas pour créer des modèles capables de répondre aux besoins actuels des utilisateurs. L’entreprise affirme que le droit d’auteur couvre pratiquement toutes les formes d’expression humaine, rendant ainsi indispensable l’utilisation de contenus protégés pour former des IA performantes.

Cette position a provoqué une vague de réactions négatives, notamment de la part de grandes institutions comme le New York Times et la Authors Guild. Ces entités accusent OpenAI de violer massivement les droits d’auteur et de profiter commercialement des œuvres protégées sans compensation adéquate. Les auteurs célèbres, tels que John Grisham et George R.R. Martin, ont également rejoint les rangs des plaignants, soulignant que l’utilisation non autorisée de leurs œuvres menace leur subsistance.

Les arguments d'OpenAI

OpenAI supplie le Parlement britannique de l'autoriser à utiliser des œuvres protégées par le droit d'auteur, car il lui serait « impossible » d'entraîner ses modèles d'intelligence artificielle - et de poursuivre la croissance de son entreprise, qui pèse plusieurs milliards de dollars - sans ces œuvres.

La société d'intelligence artificielle a déclaré dans un document soumis à une sous-commission de la Chambre des Lords que l'utilisation exclusive de contenus du domaine public serait insuffisante pour entraîner le type de grands modèles de langage (LLM) qu'elle construit, suggérant que l'entreprise doit donc être autorisée à utiliser du matériel protégé par le droit d'auteur.

« Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d'entraîner les meilleurs modèles d'IA actuels sans utiliser des documents protégés par le droit d'auteur », a écrit l'entreprise dans son dossier de preuves. « Limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui ».

OpenAI poursuit en insistant dans le document, soumis au comité des communications et du numérique de la Chambre des Lords, sur le fait qu'elle se conforme aux lois sur le droit d'auteur et qu'elle estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement ».

Des auteurs, dont George RR Martin, ont également intenté un procès à OpenAI

Sans l'utilisation d'œuvres protégées par le droit d'auteur, OpenAI « aurait un produit commercial très différent »

De plus en plus de parties intéressées s'opposent fermement à l'affirmation d'OpenAI selon laquelle l'utilisation d'œuvres protégées par le droit d'auteur pour entraîner l'IA est légale et sans danger.

Le New York Times a intenté un procès à OpenAI et à Microsoft, son principal investisseur, pour...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI aurait accidentellement supprimé des preuves potentielles dans le procès intenté par le New York Times

Sur les violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner ChatGPT

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI aurait accidentellement supprimé des preuves potentielles dans le procès intenté par le New York Times Sur les violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner ChatGPT

OpenAI aurait accidentellement supprimé des preuves potentielles dans le procès intenté par le New York Times

Sur les violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner ChatGPT