
Meta accusé d'avoir utilisé des copies piratées de livres pour entraîner son IA
Les pratiques de Meta et de ses rivaux en matière de collecte de données pour l'entraînement des modèles d'IA font l'objet de nombreuses controverses. L'une des plaintes visant Meta accuse la société d'avoir téléchargé plus de 81,7 To de livres piratés pour entraîner son IA. La plainte allègue que Meta a utilisé des bases de données de livres piratés, notamment celles circulant sur des plateformes comme Library Genesis (LibGen), Z-Library ou encore Bibliotik.
Ces bibliothèques sont largement connues pour héberger des millions d'ouvrages sous copyright en accès gratuit et illégal. Ces ouvrages auraient servi à enrichir LLama (Large Language Model Meta AI), un grand modèle de langage (LLM) avancé développé par Meta et l'un des plus puissants sur le maché.
L'avocat des plaignants affirme que Meta s'est livré à une autre forme d'infraction au droit d'auteur en diffusant LibGen par torrent et en contribuant ainsi à la diffusion de son contenu. « Si Meta avait acheté les œuvres des plaignants dans une librairie ou les avait empruntées à une bibliothèque et avait entraîné ses modèles LLama sur ces œuvres sans licence, il aurait commis une violation du droit d'auteur », a écrit l'avocat des plaignants dans le dossier.
Les plaignants accusent Meta d'avoir effrontément opté pour le torrenting de dizaines de téraoctets de livres numériques piratés après que les tentatives de téléchargement des livres piratés un par un aient exercé « une pression énorme » sur les réseaux du géant de Menlo Park et progressé très lentement.
Sachant que ce type d'activité est considéré comme une infraction depuis plus de vingt ans, ils allèguent que Meta a pris un risque, espérant apparemment ne pas être détecté alors qu'il luttait pour rattraper son retard dans la course à l'IA et qu'il avait besoin d'un accès plus rapide à de grandes quantités de données.
Pour brouiller les pistes, l'entreprise de médias sociaux se serait écartée des pratiques habituelles et aurait tenté de dissimuler le torrenting en utilisant les AWS (Amazon Web Services). « Dans la plupart des cas, et dans celui-ci également, les utilisateurs qui téléchargent par torrent téléchargent également le même fichier que celui qu'ils téléchargent pour profiter des avantages d'un partage de fichiers plus rapide », ont déclaré les auteurs dans leur plainte.
En février, les auteurs ont déclaré que l'utilisation du torrenting par Meta constitue une infraction. Les plaignants ont expliqué que le leeching de Meta pendant le processus de téléchargement serait une preuve suffisante que le géant des réseaux sociaux a partagé les livres piratés avec d'autres.
Les plaignants affirment que Meta cherche à échapper à ses responsabilités
« Il est incontestable que Meta a largement diffusé et même retransmis vers d'autres pirates en ligne au moins une partie des données piratées dans le cadre du processus de partage peer-to-peer (P2P). La réponse de Meta dans cette affaire semble être qu'une puissante entreprise technologique ne devrait pas être tenue de respecter les mêmes normes que n'importe qui d'autre en cas de conduite illégale », affirment les auteurs dans leur plainte.
Les plaignants se sont moqués de Meta pour avoir invoqué ce qu'ils appellent « la défense Bob Dylan » face aux accusations concernant son torrenting. Ils ont cité les paroles de la chanson « Sweetheart Like You » qui disent : « volez un peu et ils vous jettent en prison. Volez beaucoup et ils vous font roi ».
Meta ne souhaite pas que le tribunal examine les demandes sur le leeching. Les plaignants ont demandé un jugement sommaire devant un tribunal de district de Californie. Mais Meta a déclaré que cette demande est inappropriée parce que la société n'a pas eu l'occasion de se défendre contre les revendications.
« Ils ont l'intention de demander un jugement sommaire sur les questions de torrenting, vraisemblablement en s'appuyant sur cette nouvelle théorie dans un nouveau rapport d'expert, auquel Meta n'a pas eu l'occasion d'enquêter ou de répondre », indique la lettre de Meta. Le 1er mai, le juge Vince Chhabria examinera ces arguments lors d'une audience au cours de laquelle Meta aura la possibilité de répondre aux allégations en rapport avec le leeching.
Au début de ce mois, le juge Vince Chhabria a écrit dans une ordonnance qu'il examinerait s'il serait injuste pour Meta de se prononcer sur le jugement sommaire à ce stade. Mais les plaignants pensent que le torrenting d'œuvres piratées est si notoirement illégal qu'ils ont maintenant un « cas ouvert et fermé » d'infraction au droit d'auteur. Les auteurs espèrent faire payer Meta, qui se serait dérobé aux offres de licence de leurs données contre rémunération.

Ils espèrent apparemment que le juge se rendra compte que l'activité de Meta ne nuit pas seulement aux auteurs. Pour étoffer leur dossier, les auteurs ont également cherché à faire témoigner les employés de Meta qui ont déjà témoigné, y compris Mark Zuckerberg. Meta s'oppose à cette demande.
Les auteurs affirment que le piratage ne peut jamais être un usage équitable
Les auteurs affirment qu'il existe des lacunes dans la compréhension du tribunal concernant le torrenting de Meta, soulignant que l'expert de Meta n'a pas reproduit le torrenting de l'entreprise dans son analyse, ce qui ne permet pas de savoir clairement « combien de données Meta a téléchargées ou stockées ». À ce propos, il convient de souligner que le juge Vince Chhabria a admis lors d'une récente audition que le terme « leeching » lui est étranger.
Le leeching est un terme utilisé dans le domaine de l'informatique et plus particulièrement dans le jargon d'Internet pour décrire le comportement...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.