Une plainte déposée par les éditeurs Raw Story et AltNet contre OpenAI pour violation de droit d'auteur vient d'être rejetée par un juge américain. Elle allègue qu'OpenAI a illégalement supprimé les informations de gestion des droits d'auteur lors de la construction d'ensembles de données pour la formation de ses modèles d'IA. Raw Story et AltNet ont ajouté que les pratiques d'OpenAI ont entraîné un « préjudice concret ». Toutefois, le juge a estimé que les plaignants n'ont pas pu démontrer qu'ils avaient subi un préjudice concret et réel du fait des actions d'OpenAI. Cela a entraîné le rejet de la plainte, ce qui constitue une victoire pour OpenAI.
Rappel du contexte de l'action en justice des éditeurs Raw Story et AltNet
Raw Story et AltNet ont déposé leur plainte en février 2024. Leur action en justice porte sur l'article 1202(b) du DMCA (Digital Millennium Copyright Act), une disposition qui vise à protéger les « informations sur la gestion des droits d'auteur » (copyright management information - CMI). Les informations protégées par l'article 1202(b) du DMCA incluent les noms d'auteurs, les titres et autres métadonnées permettant d'identifier les œuvres protégées par le droit d'auteur.
L'article 1202(b) interdit « la suppression ou la modification de ces informations sans autorisation, en particulier si cela facilite la violation des droits d'auteur ». Dans cette affaire, Raw Story et AlterNet allèguent qu'OpenAI avait utilisé des articles de leurs sites Web pour former ChatGPT et d'autres modèles sans préserver les informations sur la gestion des droits d'auteur, violant ainsi la section 1202(b). OpenAI a rejeté ces allégations et a demandé le rejet de la plainte.
OpenAI n'est pas la seule entreprise de la course à l'IA susceptible d'avoir récupéré ce type de matériel sur le Web. Les fournisseurs de modèles d'IA ont tendance à garder précieusement leurs ensembles de données d'entraînement. Cependant, l'industrie dans son ensemble a sans aucun doute récupéré de larges pans du Web pour entraîner ses différents modèles. C'est pour cela que certains créateurs considèrent le scraping de données comme le péché originel de l'IA.
Raw Story et AltNet ont allégué que les réponses générées par les modèles d'OpenAI sont parfois basées sur leurs articles et que l'entreprise a sciemment violé les droits d'auteur en supprimant les informations sur la gestion des droits d'auteur.
Pourquoi le tribunal a-t-il rejeté les allégations de Raw Story et AltNet ?
OpenAI a fait valoir que les éditeurs n'ont pas la capacité juridique d'intenter cette action en justice, car ils n'ont pas prouvé que ChatGPT avait été formé sur leur matériel, et encore moins que la formation était préjudiciable. La juge Colleen McMahon a accepté la requête d'OpenAI visant à rejeter l'affaire pour « défaut de qualité à agir ». Elle a déclaré que les plaignants n'ont pas pu démontrer qu'ils avaient subi un préjudice concret et réel du fait des actions d'OpenAI.
« Nous construisons nos modèles d'IA en utilisant des données accessibles au public, d'une manière protégée par l'utilisation équitable et les principes connexes, et soutenus par des précédents juridiques de longue date et largement acceptés », explique Jason Deutrom, porte-parole d'OpenAI. Il s'agit d'un argument utilisé par l'ensemble des entreprises engagées dans la course à l'IA, mais il est largement critiqué dans l'industrie et de nombreux procès ont été intentés.
En outre, la juge Colleen McMahon s'est aussi penchée sur l'évolution du paysage des interfaces des grands modèles de langage (LLM), notant que les mises à jour de ces systèmes compliquent encore davantage l'attribution et la traçabilité. Colleen McMahon a souligné notamment que « les améliorations itératives de l'IA générative rendent moins probable la reproduction du contenu mot à mot », ce qui rend les revendications des plaignants encore plus spéculatives.
Elle affirme : « la probabilité que ChatGPT produise un contenu plagié à partir de l'un des articles des plaignants semble faible ». Cela reflète une difficulté majeure dans ce type d'affaires : l'IA générative est conçue pour synthétiser des informations plutôt que de les reproduire mot pour mot. Les plaignants n'ont pas présenté des preuves convaincantes que leurs œuvres spécifiques ont été directement contrefaites d'une manière qui a conduit à un préjudice identifiable.
La charge de la preuve qui pèse sur les plaignants est très importante
Cette décision s'inscrit dans la lignée d'affaires similaires dans lesquelles les tribunaux ont eu du mal à appliquer la loi traditionnelle sur le droit d'auteur à l'IA générative. Par exemple, l'affaire Doe 1 v. GitHub concernant GitHub Copilot portait également sur des réclamations au titre de l'article 1202(b) du DMCA. Dans cette affaire, un tribunal a estimé que le code généré par Copilot n'est pas une « copie identique » de l'original, mais plutôt des bribes reconfigurées.
Cela était donc difficile de prouver la violation des exigences relatives aux informations sur la gestion des droits d'auteur. La décision de Colleen McMahon a une incidence sur la question de savoir si OpenAI a été autorisée à développer ses produits d'IA générative en utilisant des articles de journalistes en supprimant les informations sur la gestion des droits d'auteur. Colleen McMahon a déclaré qu'elle autoriserait les éditeurs à déposer une plainte modifiée contre OpenAI.
Il n'existe pas de consensus ferme sur la manière dont la section 1202(b) s'applique à un large éventail de contenus en ligne. D'un côté, certains tribunaux ont imposé ce que l'on appelle « une exigence d'identité », ce qui signifie que les plaignants doivent prouver que les œuvres contrefaites sont une copie exacte du contenu original, sans les informations sur la gestion des droits d'auteur. D'autres, en revanche, ont autorisé des interprétations plus souples de la loi.
Par exemple, le tribunal du district sud du Texas a récemment déclaré que même des reproductions partielles pouvaient être considérées comme des violations si les informations sur la gestion des droits d'auteur sont délibérément supprimées. Par ailleurs, dans le procès intenté par Sarah Silverman et un ensemble d'auteurs, le tribunal a estimé que la plaignante n'avait pas démontré de manière suffisante qu'OpenAI avait activement supprimé les CMI de son contenu.
Comme l'explique Maria Crusey dans un article pour l'Authors Alliance, « l'augmentation des plaintes en vertu de l'article 1202(b) soulève des questions difficiles, à savoir : comment l'article 1202(b) s'applique-t-il à l'utilisation d'une œuvre protégée par le droit d'auteur dans le cadre d'un ensemble de données qui doit être nettoyé, restructuré et traité de manière à séparer les informations relatives à la gestion du droit d'auteur du contenu lui-même ? »
Cette décision constitue un revers pour les créateurs et les éditeurs
Le rejet de l'action en justice de Raw Story et AltNet est une victoire importante pour OpenAI. Selon certains analystes, il s'agit également d'un indicateur de la façon dont les tribunaux peuvent traiter des réclamations similaires à l'avenir. OpenAI et son investisseur Microsoft se défendent actuellement contre une action en justice similaire intentée par le New York Times, et la décision ne peut que contribuer à établir un précédent pour rejeter cette action et d'autres à venir.
La décision de la juge Colleen McMahon suggère qu'en l'absence d'un préjudice clair et démontrable ou d'une reproduction exacte, les plaignants pourraient avoir du mal à obtenir gain de cause devant les tribunaux. Elle porte également sur un point plus large, à savoir la manière dont l'IA générative synthétise les données plutôt que de les reproduire directement. La synthèse rend difficile de prouver les violations des lois actuelles sur le droit d'auteur.
Pour les créateurs de contenu, cela soulève un défi important : comment empêcher l'utilisation non autorisée de leur travail dans les ensembles de données de formation ? Des accords de licence comme ceux qu'OpenAI a conclus avec de grands éditeurs de presse tels que Vogue et Condé Nast pourraient devenir la nouvelle norme, donnant aux entreprises un moyen d'utiliser légalement des contenus protégés par le droit d'auteur tout en indemnisant leurs créateurs.
Source : document juridique (PDF)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la décision de la juge américaine Colleen McMahon dans cette affaire ?
Quels pourraient être les impacts de cette décision sur le travail des créateurs et des éditeurs ?
Selon vous, quelles sont les menaces de l'IA générative pour les créateurs de contenus et les éditeurs ?
Voir aussi
The Intercept, Raw Story et AlterNet poursuivent OpenAI et Microsoft en justice pour violation du droit d'auteur, ils exigent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA
Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4, violant ainsi les droits d'auteur des créateurs de la plateforme
OpenAI et les médias : des accords de contenu dans l'ombre inquiètent les journalistes qui déplorent le manque de transparence et craignent des impacts négatifs sur leur travail
Un juge rejette une plainte déposée par des éditeurs contre OpenAI pour violation du droit d'auteur,
Le juge estime qu'il n'y a pas de preuve que le scraping d'OpenAI a causé un préjudice réel aux éditeurs
Un juge rejette une plainte déposée par des éditeurs contre OpenAI pour violation du droit d'auteur,
Le juge estime qu'il n'y a pas de preuve que le scraping d'OpenAI a causé un préjudice réel aux éditeurs
Le , par Mathis Lucas
Une erreur dans cette actualité ? Signalez-nous-la !