Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright

Afin d'entraîner ses modèles d'IA Llama

Le 4 octobre 2024 à 11:10, par Anthony

214PARTAGES

Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright, afin d'entraîner ses modèles d'IA Llama

La société mère de Facebook, Meta Platforms Inc., est la dernière cible d'un litige visant les entreprises du secteur des grandes technologies qui utiliseraient des livres protégés par des droits d'auteur pour entraîner leurs modèles d'intelligence artificielle (IA) sans le consentement des auteurs. En effet, Meta fait actuellement l'objet d'une action collective devant le tribunal fédéral de Californie, l'accusant d'avoir volé des centaines de milliers de livres protégés par des droits d'auteur pour entraîner sa famille de grands modèles de langage (LLM) Llama. Selon la plainte en recours collectif, la société aurait téléchargé et copié près de 200 000 ouvrages à partir d'une collection de livres piratés.

En septembre 2024, Meta a annoncé Llama 3.2, la dernière mise à jour de sa famille de LLM Llama visant à révolutionner l'IA et la vision grâce à des modèles ouverts et personnalisables. Les modèles légers 1B et 3B de Llama 3.2 peuvent être exécutés localement sur les appareils, préservant ainsi la confidentialité en évitant la transmission des données vers le cloud. Les modèles de vision 11B et 90B de Llama 3.2 remplacent quant à elles aisément les modèles textuels de taille équivalente et surpassent les modèles fermés dans les tâches de compréhension d'images. Cette mise à jour apporte également le framework Llama Stack qui simplifie le travail des développeurs dans divers environnements, avec des distributions pour single-node, on-prem, cloud et on-device.

La récente action en justice pour violation du droit d'auteur n'est pas une première pour Meta. En 2023, l'entreprise avait déjà été poursuivie par un groupe d'auteurs pour des motifs similaires. La plainte déposée par la comédienne Sarah Silverman, le lauréat du prix Pulitzer Michael Chabon et d'autres auteurs de renom, consolide ainsi deux actions en justice intentées contre le propriétaire de Facebook et d'Instagram, qui allèguent que Meta a utilisé illégalement des livres protégés par le droit d'auteur pour l'entraînement de son IA, et ce malgré les avertissements de ses propres avocats. En effet, les avocats de Meta Platforms avaient prévenu l'entreprise des dangers juridiques liés à l'utilisation de milliers de livres piratés pour entraîner les modèles d'IA, mais Meta l'a quand même fait, précisait un dépôt dans le procès pour violation du droit d'auteur initialement intenté vers l'été 2023.

Nouveau rebondissement dans cette affaire, ce mardi 1er octobre 2024, Lieff Cabraser Heimann & Bernstein et Cowan, DeBaets, Abrahams & Sheppard ont déposé une action collective au nom du plaignant principal Christopher Farnsworth, auteur de la série de fiction « Nathaniel Cade », contre Meta, affirmant que cette société a volé des « centaines de milliers » de livres protégés par le droit d'auteur à partir d'une collection en ligne piratée pour construire « Llama », son grand ensemble de modèles de langage. La plainte, déposée auprès du tribunal de district des États-Unis pour le district nord de la Californie à San Jose, allègue une violation des droits d'auteur en vertu de l'article 501 du code des États-Unis (17 U.S.C.). L'avocat du défendeur ne s'est pas encore manifesté.

Meta a d'abord lancé sa famille phare de LLM, alors stylisée comme LLaMA, en février 2023 dans la course aux Big Tech pour concurrencer les débuts du chatbot d'IA générative révolutionnaire d'OpenAI, ChatGPT, en novembre 2022. Meta a publié « Llama 2 » pour un usage commercial en juillet 2023 et sa dernière itération, “Llama 3”, pour construire son assistant d'IA “Meta AI”, le 18 avril 2024.

Selon la plainte, Meta a téléchargé et copié près de 200 000 livres protégés par le droit d'auteur à partir de « Books3 », une bibliothèque d'œuvres protégées par le droit d'auteur que le développeur Shawn Presser a récupérée sur le site Web de livres piratés Bibliotik. Books3 fait partie de « The Pile », un ensemble de données en ligne à source ouverte hébergé par l'organisation à but non lucratif EleutherAI, qui a été spécialement conçu pour former les LLM. Les LLM sont conditionnés pour simuler la communication humaine en ingérant et en traitant des quantités massives de données qui leur « apprennent » effectivement à générer des réponses écrites prédictives. La plainte affirme que Meta a révélé publiquement qu'il utilisait les données de Books3 pour former ses LLM dans un document de recherche datant de février 2023.

Ces plateformes fonctionnent selon le principe « move fast and break things and pay for it later », a déclaré Mike Palmisciano, partenaire de Sullivan & Worcester, spécialisé dans les questions transactionnelles de propriété intellectuelle. « Développons ces produits, devenons en quelque sorte essentiels sur le marché, puis réfléchissons à la suite à donner à l'affaire ».

Ce n'est pas la première fois que Meta est accusée d'avoir volé des documents protégés par le droit d'auteur à Books3 à des fins d'entraînement à l'IA. En juillet 2023, une coalition d'écrivains, dont la comédienne Sarah Silverman, a poursuivi Meta et OpenAI devant le tribunal fédéral de Californie pour des motifs similaires de violation des droits d'auteur. L'Associated Press a rapporté le 27 septembre que le PDG de Meta, Mark Zuckerberg, sera entendu dans le cadre de l'action collective intentée contre Meta.

Lieff Cabraser, en collaboration avec Susman Godfrey, représente également les plaignants dans un recours collectif déposé en août qui accuse la startup d'IA Anthropic d'avoir détourné les textes de Books3 pour former sa propre collection de LLM, « Claude ».

Selon Mike Palmisciano, ces types de plaintes pour violation du droit d'auteur continueront à se multiplier jusqu'à ce qu'une solution réglementaire ou une décision de justice « définisse les lignes directrices de ce qui est autorisé dans le contexte de l'IA ».

« Je pense que l'argument de l'utilisation équitable avancé par la défense est difficile à concilier avec des décennies de jurisprudence sur l'utilisation équitable du droit d'auteur », a-t-il déclaré. « Cela dit, je suppose qu'à un moment donné, la Cour suprême se prononcera sur ce qui constitue un usage loyal dans le contexte de l'IA et sur la question de savoir si ce type d'ingestion de grands ensembles de données est transformateur d'une manière qui protège les fournisseurs ».

Jusqu'à ce que la Cour suprême se prononce sur la question de l'usage loyal, Mike Palmisciano prédit que les entreprises visées par le litige continueront à conclure des règlements ponctuels et des accords monétaires.

« Il semble que c'est à cela que sont destinés les premiers financements de plateformes telles qu'OpenAI », a-t-il déclaré. « Elles développent leur technologie, bien sûr, mais elles concluent également des accords de licence très coûteux et étendus pour le contenu qu'elles ont déjà intégré dans leur plateforme. »

Source : Plainte en recours collectif contre Meta

Et vous ?

Quelle lecture faites-vous de cette situation ?

Pensez-vous que l'action en justice menée par les auteurs contre Meta est pertinente et justifiée ?

Selon vous, jusqu'à quel point les entreprises comme Meta devraient-elles être responsables de la vérification de la provenance légale des données utilisées pour former leurs modèles d'IA ?

Pensez-vous que les règlements à venir sur l'utilisation équitable des données pour les modèles d'IA devraient être plus stricts ou plus souples ?

Voir aussi :

Meta annonce Llama 3.2 qui révolutionnerait l'IA et la vision grâce à des modèles ouverts et personnalisables, Llama 3.2 comprend des modèles légers qui s'exécutent localement sur l'appareil

Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats, selon une nouvelle plainte des auteurs

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

Vous avez lu gratuitement 17 000 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright

Afin d'entraîner ses modèles d'IA Llama

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright Afin d'entraîner ses modèles d'IA Llama

Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright

Afin d'entraîner ses modèles d'IA Llama