
Rappel du contexte de l'action en justice des éditeurs Raw Story et AltNet
Raw Story et AltNet ont déposé leur plainte en février 2024. Leur action en justice porte sur l'article 1202(b) du DMCA (Digital Millennium Copyright Act), une disposition qui vise à protéger les « informations sur la gestion des droits d'auteur » (copyright management information - CMI). Les informations protégées par l'article 1202(b) du DMCA incluent les noms d'auteurs, les titres et autres métadonnées permettant d'identifier les œuvres protégées par le droit d'auteur.
L'article 1202(b) interdit « la suppression ou la modification de ces informations sans autorisation, en particulier si cela facilite la violation des droits d'auteur ». Dans cette affaire, Raw Story et AlterNet allèguent qu'OpenAI avait utilisé des articles de leurs sites Web pour former ChatGPT et d'autres modèles sans préserver les informations sur la gestion des droits d'auteur, violant ainsi la section 1202(b). OpenAI a rejeté ces allégations et a demandé le rejet de la plainte.
OpenAI n'est pas la seule entreprise de la course à l'IA susceptible d'avoir récupéré ce type de matériel sur le Web. Les fournisseurs de modèles d'IA ont tendance à garder précieusement leurs ensembles de données d'entraînement. Cependant, l'industrie dans son ensemble a sans aucun doute récupéré de larges pans du Web pour entraîner ses différents modèles. C'est pour cela que certains créateurs considèrent le scraping de données comme le péché originel de l'IA.
Raw Story et AltNet ont allégué que les réponses générées par les modèles d'OpenAI sont parfois basées sur leurs articles et que l'entreprise a sciemment violé les droits d'auteur en supprimant les informations sur la gestion des droits d'auteur.
Pourquoi le tribunal a-t-il rejeté les allégations de Raw Story et AltNet ?
OpenAI a fait valoir que les éditeurs n'ont pas la capacité juridique d'intenter cette action en justice, car ils n'ont pas prouvé que ChatGPT avait été formé sur leur matériel, et encore moins que la formation était préjudiciable. La juge Colleen McMahon a accepté la requête d'OpenAI visant à rejeter l'affaire pour « défaut de qualité à agir ». Elle a déclaré que les plaignants n'ont pas pu démontrer qu'ils avaient subi un préjudice concret et réel du fait des actions d'OpenAI.
« Nous construisons nos modèles d'IA en utilisant des données accessibles au public, d'une manière protégée par l'utilisation équitable et les principes connexes, et soutenus par des précédents juridiques de longue date et largement acceptés », explique Jason Deutrom, porte-parole d'OpenAI. Il s'agit d'un argument utilisé par l'ensemble des entreprises engagées dans la course à l'IA, mais il est largement critiqué dans l'industrie et de nombreux procès ont été intentés.
En outre, la juge Colleen McMahon s'est aussi penchée sur l'évolution du paysage des interfaces des grands modèles de langage (LLM), notant que les mises à jour de ces systèmes compliquent encore davantage l'attribution et la traçabilité. Colleen McMahon a souligné notamment que « les améliorations itératives de l'IA générative rendent moins probable la reproduction du contenu mot à mot », ce qui rend les revendications des plaignants encore plus spéculatives.
Elle affirme : « la probabilité que ChatGPT produise un contenu plagié à partir de l'un des articles des plaignants semble faible ». Cela reflète une difficulté majeure dans ce type d'affaires : l'IA générative est conçue pour synthétiser des informations plutôt que de les reproduire mot pour mot. Les plaignants n'ont pas présenté des preuves convaincantes que leurs œuvres spécifiques ont été directement contrefaites d'une manière qui a conduit à un préjudice identifiable.
La charge de la preuve qui pèse sur les plaignants est très importante
Cette décision s'inscrit dans la lignée d'affaires similaires dans lesquelles les tribunaux ont eu du mal à appliquer la loi traditionnelle sur le droit d'auteur à l'IA générative. Par exemple, l'affaire Doe 1 v. GitHub concernant GitHub Copilot portait également sur des réclamations au titre de l'article 1202(b) du DMCA. Dans cette affaire, un tribunal a estimé que le code généré par Copilot n'est pas une « copie identique » de l'original, mais plutôt des bribes reconfigurées.
Cela était donc difficile de prouver la violation des exigences relatives aux informations sur la gestion des droits d'auteur. La décision de Colleen McMahon a une incidence sur la question de savoir si OpenAI a été autorisée à développer ses produits d'IA générative en utilisant des articles de journalistes en supprimant les informations sur la gestion des droits d'auteur. Colleen McMahon a déclaré qu'elle autoriserait les éditeurs à déposer une plainte modifiée contre OpenAI.
Il n'existe pas de consensus ferme sur la manière dont la section 1202(b) s'applique à un large éventail de contenus en ligne. D'un côté, certains tribunaux ont imposé ce que l'on appelle « une exigence d'identité », ce qui signifie que les plaignants doivent prouver que les œuvres contrefaites sont une copie exacte du contenu original, sans les informations sur la gestion des droits d'auteur. D'autres, en revanche, ont autorisé des interprétations plus souples de la loi.
Par exemple, le tribunal du district sud du Texas a récemment déclaré que même des reproductions partielles pouvaient être considérées comme des violations si les informations sur la gestion des droits d'auteur sont délibérément supprimées. Par ailleurs, dans le procès intenté par Sarah Silverman et un ensemble d'auteurs, le tribunal a estimé que la plaignante n'avait pas démontré de manière suffisante qu'OpenAI avait activement supprimé les CMI de son contenu.
Comme l'explique Maria Crusey dans un article pour l'Authors Alliance, « l'augmentation des plaintes en vertu de l'article 1202(b) soulève des questions difficiles, à savoir : comment l'article 1202(b) s'applique-t-il à l'utilisation d'une œuvre protégée par le droit d'auteur dans le cadre d'un ensemble de données qui doit être nettoyé, restructuré et traité de manière à séparer les informations relatives à la...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.