IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

"Les livres piratés utilisés par Meta ne valent rien individuellement", selon Meta AI qui a jugé que 7 millions de livres n'avaient aucune "valeur économique"
Après avoir formé son IA sur des œuvres protégées

Le , par Anthony

5PARTAGES

5  0 
Dans le cadre d'une récente saga juridique, Meta AI fait l'objet d'un examen de plus en plus minutieux en raison de son utilisation de plus de 7 millions de livres piratés pour entraîner son modèle d'intelligence artificielle (IA). Les plaignants, parmi lesquels des auteurs et des comédiens de renom, affirment que les actions de Meta AI constituent une violation généralisée des droits d'auteur. Pour sa part, Meta AI estime que "les livres piratés utilisés par Meta ne valent rien individuellement" et que les 7 millions de livres n'avaient aucune "valeur économique".

Avant cette récente défense, Meta avait déjà été confrontée à des réactions négatives concernant ses pratiques d'acquisition de données. Des courriels ont en effet révélé que l'entreprise avait téléchargé plus de 81,7 téraoctets de livres piratés pour entraîner son grand modèle de langage, LLaMA. Selon ces documents, l'entreprise a tenté de dissimuler l'opération en évitant les serveurs de Facebook lors du téléchargement. D'après plusieurs auteurs et organisations défendant les droits des écrivains, les livres provenaient de bases de données piratées telles que Library Genesis, Z-Library et Bibliotik, des plateformes largement connues pour héberger des millions d’ouvrages sous copyright en accès gratuit et illégal. Les plaignants affirment que cette acquisition secrète constitue une grave violation de la législation sur le droit d'auteur et porte atteinte à la valeur des œuvres littéraires originales.

Le mois de mars dernier, en posant à Meta AI la question : « Est-il acceptable d'utiliser des livres piratés pour entraîner l'IA ? », la réponse de la machine a été sans équivoque. « L'utilisation de livres piratés pour entraîner l'IA n'est pas acceptable », a-t-elle averti. « En fait, il s'agit d'une violation grave des lois sur le droit d'auteur, qui peut avoir des conséquences importantes pour les auteurs et les éditeurs.

Quelques jours après la requête initiale, pour des raisons qui lui sont propres, l'algorithme a changé d'avis. En réponse à la même question, il a précisé : « L'utilisation de livres piratés pour entraîner l'IA est une question complexe, et la réponse n'est pas simple. Alors que certaines entreprises, comme Meta, affirment que leur utilisation de matériel protégé par des droits d'auteur relève de l'usage loyal, d'autres prétendent qu'elle enfreint les lois sur les droits d'auteur. » Dans une déclaration datant de 2024, Meta décrit ces réponses variables comme des « hallucinations », un défi pour tous les systèmes d'IA générative.

Les avocats de Meta invoquent en effet cette même défense d'« utilisation équitable » dans un procès sur le droit d'auteur qui se déroule depuis près de deux ans dans le système juridique du district nord de la Californie. Richard Kadrey et al. v. Meta Platforms - et les quantités de communications confidentielles de Meta, nouvellement rendues publiques en tant que pièces à conviction pour les plaignants - offrent un aperçu sans précédent des manœuvres internes qui ont motivé la décision de l'entreprise d'entraîner son modèle sur une base de données contenant plus de 7 millions de livres piratés.


La semaine du 7 avril, les plaignants - dont Andrew Sean Greer et Junot Díaz, lauréats du prix Pulitzer, et l'humoriste Sarah Silverman - ont déposé une demande de jugement sommaire qui dit : « Il est désormais incontesté que Meta a torrenté des dizaines de millions de livres piratés et d'autres œuvres protégées par le droit d'auteur, dont plus de 650 exemplaires des livres des plaignants, gratuitement et sans le consentement des titulaires de droits, parce qu'il ne voulait pas payer pour les obtenir. Les plaignants, dirigés par Richard Kadrey, l'auteur à succès, entre autres, de la série Sandman Slim, affirment que le « comportement illégal » de Meta, utilisé dans le cadre de l'entraînement de son grand modèle de langage (LLM), a porté atteinte à leur travail. Dans sa propre requête, déposée le mois dernier, Meta affirme, comme elle le fait depuis sa première requête en irrecevabilité déposée en septembre 2023, que son projet Llama (grand modèle de langage Meta AI) est « hautement transformatif » et qu'il s'agit donc d'une utilisation équitable.

Interrogé à ce sujet, un porte-parole de Meta a fait une déclaration disant, en partie, que l'utilisation équitable de matériel protégé par le droit d'auteur est vitale pour le développement des modèles d'IA open-source de la société. « Nous ne sommes pas d'accord avec les affirmations des plaignants, et le dossier complet raconte une autre histoire. » Un mémoire d'amicus curiae déposé la semaine du 7 avril par l'Association of American Publishers au nom des plaignants s'oppose à cette affirmation : « Il n'y a rien de transformatif dans la copie et l'encodage systématiques d'œuvres textuelles, mot par mot, dans un LLM. Il ne s'agit pas d'une critique ou d'un commentaire, d'une fonction de recherche ou d'indexation, d'un logiciel ou d'une technologie. »

Ce procès fait partie des 16 affaires de droits d'auteur concernant les outils d'IA générative et les entités multimilliardaires qui les créent, qui se déroulent actuellement dans le système judiciaire américain : des musiciens poursuivent Anthropic pour avoir utilisé des paroles de chansons afin d'entraîner son IA, des artistes visuels poursuivent Stability AI, le New York Times poursuit Microsoft et Authors Guild v. OpenAI, qui est entendu dans le district sud de New York, devrait faire l'objet d'un jugement sommaire à l'automne. Condé Nast, la société mère de Vanity Fair, est également partie prenante dans un recours collectif contre la plateforme d'IA d'entreprise Cohere. Ces affaires soulèvent des questions existentielles sur l'art et la littérature - leur valeur inhérente et ce que signifie leur marchandisation - et arrivent à un moment où les outils d'IA générative font des progrès techniques.

L'affaire Kadrey et al. a attiré une attention particulière. L'un des avocats les plus éminents de Meta, Mark Lemley, a abandonné l'affaire au début de l'année, non pas parce qu'il ne croit pas à son bien-fondé, mais à cause de ce qu'il a décrit dans un message sur LinkedIn comme la « descente de l'entreprise et de son PDG Mark Zuckerberg dans la masculinité toxique et la folie néo-nazie ». Puis, le mois dernier, Meta a tenté de bloquer la promotion des mémoires d'un ancien employé, ce qui n'a pas contribué à rendre l'entreprise encore plus sympathique aux yeux de la communauté littéraire. Plus important encore peut-être, les plaignants et autres sont un groupe de grands noms - outre Andrew Sean Greer, Sarah Silverman et Junot Díaz, ils comprennent le satiriste Matthew Klam et les lauréats du National Book Award Ta-Nehisi Coates et Jacqueline Woodson.

Un procès, comme une œuvre littéraire, repose sur une bonne histoire racontée de manière convaincante. Un aspect intéressant de cette affaire est qu'une partie de l'histoire que Meta doit raconter est le peu d'importance des livres et des auteurs individuels dans la création de Llama. ( « Est-ce que vous prononcez “Llama” ? », s'est demandé le juge au début de l'affaire). En conséquence, un argument notable de la défense a été révélé dans un document déposé au tribunal la semaine du 7 avril dernier : « Il n'y a aucune allégation ou preuve que les copies faites par Meta ont été utilisées pour lire les livres des plaignants par les employés de Meta ou toute autre personne. »

La marchandisation des livres est intrinsèque à l'édition commerciale, mais il y a quelque chose de particulièrement stupéfiant à voir comment les chercheurs de Meta ont réduit la littérature à un pur actif, dépourvu de sens. Un chercheur a écrit : « La fiction est excellente » pour entraîner le modèle de langage, mais il a fait remarquer que la base de données LibGen n'en contenait qu'environ « 700 Go ». Le même chercheur donne raison à Hemingway en décrivant la base de données de fiction comme « principalement des romans, faciles à analyser, ce que nous utilisons ». Dans une note interne, les chercheurs soulignent les problèmes posés par les données pirates converties : les numéros de page se retrouvent dans le corps du texte, les sauts de ligne sont incorrects et il manque des « espaces blancs » entre les mots. À titre d'exemple, un employé de Meta a cité ces lignes : « Maintenant, sois gentille avec Willa Jean, dit Mme .\nQuimby, car... » et « Ramona, 33\n\n-aimerais-tu... », qui sont indubitablement tirées du livre pour enfants bien-aimé de Beverly Cleary, Ramona Quimby, Age 8, publié en 1981, un livre qui, notamment, est toujours protégé par des droits d'auteur. « Objectifs : rédiger autant de textes longs que possible au cours des 4 à 6 prochaines semaines », peut-on lire dans une directive. Articles, scénarios de films, magazines et « livres, tous genres confondus ».

Kadrey et al. affirment que Meta a « torrenté au moins 81,7 téraoctets de données provenant de plusieurs bibliothèques fantômes par l'intermédiaire du site Anna's Archive, y compris au moins 35,7 téraoctets de données provenant de Z-Library et LibGen » - des bases de données illégales de livres piratés, dont la dernière a fait l'objet, en septembre 2024, d'une injonction permanente de la part d'un tribunal fédéral pour violation du droit d'auteur, et qui aurait également été utilisée par OpenAI et par d'autres personnes. En réponse aux plaintes déposées par d'éminents auteurs, OpenAI a déclaré que ses « modèles sont formés sur des données accessibles au public, fondées sur l'utilisation équitable ». Le mois dernier, Alex Reisner, de The Atlantic, qui a beaucoup parlé de l'utilisation de bibliothèques piratées pour l'entraînement à l'IA, a publié un outil permettant de rechercher les titres dans LibGen. Tous les livres inclus dans la base de données n'ont pas nécessairement été utilisés pour former Llama ; Meta a déclaré que son outil de formation utilisait « une fraction de LibGen », et Alex Reisner note que l'outil de recherche utilise un instantané pris en janvier 2025, plus d'un an après que Meta ait accédé à son contenu.

Pour des auteurs comme Carmen Maria Machado, qui n'est pas citée comme plaignante dans ces affaires mais dont les livres - y compris In the Dream House et Her Body and Other Parties dans leur version originale anglaise et en traduction - semblent figurer parmi ceux qui ont été piratés par LibGen, les titres figurant dans la base de données représentent d'innombrables heures de travail. « Une décennie de ma vie. C'est mon travail créatif. C'est mon esprit », dit-elle. « Je me suis sentie - je veux dire, violée est un mot très fort, mais c'est comme si je signais beaucoup de contrats. Je contrôle parfaitement les droits que j'ai sur mes livres, mon travail, mes traductions et mes droits cinématographiques. Tout cela est géré avec beaucoup de soin, mais l'idée qu'une entreprise puisse simplement, sans aucune conséquence, l'introduire dans une machine me paraît tellement insensée que je n'arrive pas à m'y faire ».

Mark Lemley, l'ancien avocat de Meta, déclare que les livres piratés sont « l'une de ces choses qui semblent mauvaises mais qui, en fait, ne devraient pas avoir d'importance au regard de la loi. L'utilisation équitable concerne toujours des utilisations que le plaignant n'approuve pas ; c'est la raison pour laquelle il y a un procès ». Comme l'équipe juridique actuelle de Meta, il cite Google Books, qui a scanné des millions de livres sans autorisation - « et tous les moteurs de recherche parcourent l'ensemble de l'internet, y compris de nombreux contenus piratés », affirme-t-il. « Nous voulons réduire le risque que l'IA produise des résultats illicites. Mais réglementer ce sur quoi l'IA s'entraîne risque d'avoir des conséquences inattendues ». Selon lui, « la loi sur le droit d'auteur devrait se concentrer sur le résultat plutôt que sur la manière dont l'IA est entraînée ». En d'autres termes, si l'IA s'entraîne sur les livres de Harry Potter et produit ensuite un livre de Harry Potter, il y a un problème de droit d'auteur. Si elle produit sa propre suite, « cela aussi peut poser un problème de droit d'auteur ». Mais, ajoute-t-il, « la grande majorité des utilisations de l'IA n'est pas de me donner un livre de Harry Potter, mais de me donner quelque chose de nouveau ».

Meta a mené des discussions préliminaires avec les éditeurs sur les droits de licence potentiels, mais a reçu des chiffres qui, selon les documents du tribunal, étaient « très éloignés de la réalité ». Dans la transcription d'une déposition enregistrée qui a été rendue publique, la défense décrit les négociations potentielles sur les droits de licence comme « une sorte de chanson et de danse » qui « prend beaucoup de leur temps ; cela prend notre temps », et dit qu'en raison de la structure des droits d'édition des livres, « en l'absence d'utilisation équitable, Meta devrait entamer des négociations individualisées avec des millions d'auteurs », ce qui impliquerait « d'identifier des livres individuels et leurs auteurs ; de déterminer comment les contacter ; de s'assurer qu'ils possèdent des droits libres de toute charge », etc. Bien que Meta décrive sa plateforme d'IA comme étant « open source », l'entreprise exige que les développeurs qui utilisent Llama concluent un accord de licence communautaire, dont les termes vont de l'obligation pour les utilisateurs d'afficher « en évidence » la phrase « Construit avec Llama » sur les sites web qui les accompagnent à l'inclusion de « Llama » au début du nom d'un nouveau modèle d'IA. L'entreprise affirme que « ce processus serait onéreux même pour quelques auteurs ; il est pratiquement impossible pour des centaines de milliers ou des millions d'auteurs ».

Mais les données nécessaires pour construire les modèles étaient énormes et, selon la correspondance interne de l'entreprise, ne pouvaient être obtenues sans utiliser des livres, ce qui a déclenché un débat interne et une discussion qui a duré des années.

En octobre 2022, une chercheuse senior, Melanie Kambadur, a écrit dans un message adressé à ses coéquipiers : « Je ne pense pas que nous devrions utiliser du matériel piraté. Il faut vraiment que je mette un terme à cette pratique ». Un jeu de diapositives interne décrit les préoccupations liées à l'utilisation de LibGen, telles que les risques politiques, y compris les préoccupations des législateurs américains « concernant les développeurs d'IA qui utilisent des sites Web piratés pour la formation », et que « si les médias suggèrent que nous avons utilisé un ensemble de données que nous savons être piraté, tel que LibGen, cela peut nuire à notre position de négociation avec les régulateurs sur ces questions ». Le même jeu notait : « En aucun cas nous ne divulguerions publiquement que nous nous sommes entraînés sur LibGen, mais il existe un risque pratique que des parties externes déduisent notre utilisation de ce jeu de données ».

Les chercheurs, quant à eux, semblaient adopter une politique de « ne pas demander - ne pas dire ». Dans une pièce à conviction expurgée des plaignants, qui contient des messages internes entre les chercheurs en IA générative de Meta concernant l'utilisation de LibGen, envoyés en novembre 2022, Melanie Kambadur demande : « Est-ce que quelqu'un du service juridique a confirmé cela ? Ou essayons-nous simplement de ne pas poser trop de questions ? » Guillaume Lample répond : « Je n'ai pas posé de questions mais c'est ce que fait OpenAI avec GPT3, ce que fait Google avec PALM, et ce que fait Deepmind avec Chinchilla, alors nous le ferons aussi. » Contacté pour un commentaire, un porte-parole d'OpenAI a déclaré que les modèles qui alimentent ChatGPT et son API actuelle n'ont pas été développés à l'aide de LibGen : « Ces ensembles de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021. » Un représentant de Google, qui possède également Deepmind, n'a pas répondu à une demande de commentaire.

« Nous ne sommes pas sûrs de pouvoir utiliser les adresses IP de Meta pour charger des contenus pirates via des torrents », a écrit un ingénieur dans un message datant de 2023. « Faire du torrent à partir d'un ordinateur portable de l'entreprise ne me semble pas correct [emoji rire/pleurer] ». La même personne a ensuite partagé une page web avec ses collègues : « Quelle est la probabilité d'être arrêté pour avoir utilisé des torrents aux États-Unis ? » D'autres communications montrent que les chercheurs se sont efforcés de supprimer les pages de copyright des livres qu'ils avaient téléchargés. Les avocats de Meta affirment qu'il s'agissait simplement de rendre les données plus conviviales pour le modèle d'entraînement en éliminant le texte passe-partout. Dans une chaîne de courriels datant de 2024 et ayant pour objet « FW : [A/C Priv] LibGen Approval for OneLLM », une employée de Meta déclare qu'elle souhaite « signaler un problème qui va être très difficile à résoudre ».

Une motion déposée par les plaignants en février 2025 décrit un cas d'amnésie collective : dans une déposition, Mark Zuckerberg, le PDG de Meta, « a affirmé n'avoir aucune connaissance de LibGen ni aucune implication dans son utilisation », bien que des documents internes décrivent la nécessité d'obtenir l'approbation de « zuck/cox/ahmad » pour aller de l'avant avec l'utilisation des données Books3 pour la formation, et la décision d'utiliser LibGen comme se produisant « après une escalade préalable à MZ ». Un autre témoin, qui a affirmé ne pas connaître les détails ou les problèmes juridiques concernant LibGen, avait reçu un mémo décrivant le jeu de données comme un ensemble « dont nous savons qu'il est piraté ».

Les avocats de Meta soutiennent qu'en vertu de la jurisprudence, « il importe peu que Meta ait téléchargé des ensembles de données contenant des livres "piratés" auprès d'un tiers qui n'avait pas l'autorisation de les distribuer, ou qu'il ait emprunté des livres d'occasion à la bibliothèque et les ait scannés à la main pour parvenir au même résultat ».

Mais leur défense repose également sur l'argument selon lequel les livres individuels eux-mêmes sont, essentiellement, sans valeur - un témoin expert pour Meta décrit que l'influence d'un seul livre dans la formation préalable du LLM « a ajusté sa performance de moins de 0,06% sur les repères standard de l'industrie, un changement sans signification qui n'est pas différent du bruit ». En outre, Meta déclare que si la société « a investi des centaines de millions de dollars dans le développement du LLM », elle ne voit pas de marché pour payer les auteurs afin d[/a/c priv]...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !