
pourrait ruiner financièrement l'industrie de l'IA, selon les associations professionnelles
Un juge fédéral américain vient de certifier la plus vaste class action jamais intentée pour violation du droit d’auteur contre une entreprise technologique. La cible : Anthropic, créatrice du modèle Claude, accusée d’avoir bâti une partie de son succès sur des données issues d’une massive bibliothèque de livres piratés. Derrière cette affaire se joue un débat fondamental : l’IA peut-elle prospérer sur la base d’une appropriation massive de contenus protégés ? Et si la justice tranche sévèrement, l’impact pourrait être dévastateur non seulement pour Anthropic, mais pour l’ensemble du secteur.
Contexte
En août 2024, les auteurs Andrea Bartz, Charles Graeber et Kirk Wallace Johnson ont intenté un recours collectif contre Anthropic dans le district nord de la Californie. L'action en justice accuse Anthropic, développeur de Claude AI, d'avoir entraîné son chatbot sur des copies pirates de livres protégés par le droit d'auteur, sans consentement ni compensation. Mais Anthropic soutient que l'entraînement de l'IA sur des œuvres protégées relève de l'usage loyal.
En avril 2025, Anthropic a déposé son opposition à la requête en certification de recours collectif, arguant qu'un recours collectif en matière de droit d'auteur portant sur des millions de livres n'était pas gérable et que les questions étaient trop distinctes pour être résolues dans le cadre d'un recours collectif.
Dans le cadre de cet argument, Anthropic a mis en garde contre « la perspective de dommages-intérêts légaux ruineux - 150 000 dollars multipliés par 5 millions de livres » : cela représenterait 750 milliards de dollars. Un mois plus tard, une audience a eu lieu concernant la requête d'Anthropic en vue d'obtenir un jugement sommaire sur l'usage loyal, qui a examiné dans quelle mesure l'utilisation des œuvres en question pouvait être qualifiée d'usage loyal.
Le juge William Alsup, de la cour fédérale du district nord de Californie, a rendu un jugement sommaire en faveur d'Anthropic, estimant que l'utilisation des livres protégés par le droit d'auteur à des fins de formation et le passage du format papier au format numérique constituent tous deux un « usage loyal ». Il s'agit d'une décision inédite en faveur de l'industrie de l'IA, mais elle est surtout limitée aux livres physiques qu'Anthropic a achetés et numérisés.
Malgré sa victoire, Anthropic doit toujours faire face à un procès pour piratage, pour lequel le juge William Alsup a estimé qu'il ne s'agissait pas d'une utilisation équitable. Anthropic est accusé d'avoir téléchargé jusqu'à sept millions de livres piratés afin de constituer une bibliothèque de recherche où les copies seraient conservées « à jamais », qu'elles aient été utilisées ou non dans le cadre de l'entraînement de ses grands modèles de langage.
Ayant apparemment compris que le piratage pouvait entraîner des poursuites judiciaires, Anthropic a ensuite tenté de remplacer les livres piratés par des copies achetées légalement. Toutefois, l’entreprise a également soutenu que même la copie initiale de ces livres piratés constituait une étape « intermédiaire » nécessaire pour permettre un usage transformateur dans l’entraînement de l’IA. Un argument largement controversé que le tribunal a rejeté.
Ce qui rend cette affaire explosive, c’est qu’Anthropic n’est probablement pas un cas isolé. Dans les cercles techniques, il est de notoriété publique que de nombreux modèles ont été formés sur des corpus partiellement ou totalement illégaux : bibliothèques pirates, dépôts GitHub sans licence, archives web contenant du contenu protégé…
Si la justice établit un précédent strict, toute l’industrie pourrait se retrouver dans la ligne de mire : OpenAI, Google DeepMind, Meta, Stability AI et bien d’autres. Le procès Anthropic pourrait alors devenir l’équivalent, pour l’IA, de l’affaire Napster dans l’industrie musicale — un moment de rupture imposant de nouvelles règles du jeu.
Anthropic est dans la tourmente
Les groupes industriels du secteur de l'IA exhortent une cour d'appel à bloquer ce qu'ils qualifient de plus grande action collective jamais certifiée en matière de droits d'auteur. Ils ont averti qu'un seul procès intenté par trois auteurs contre Anthropic pour sa formation en IA menace désormais de « ruiner financièrement » l'ensemble du secteur de l'IA si jusqu'à 7 millions de plaignants finissent par se joindre au litige et imposer un règlement.
Il y a quelques jours, Anthropic a déposé une requête en appel contre la certification du recours collectif, exhortant la cour à examiner des questions que le juge du tribunal de district, William Alsup, ne semble pas avoir prises en compte. Selon Anthropic, Alsup n'aurait pas procédé à une « analyse rigoureuse » du recours collectif potentiel et aurait plutôt fondé son jugement sur ses « 50 ans » d'expérience.
Si la cour d'appel rejette la requête, Anthropic estime que l'entreprise émergente pourrait être condamnée. Comme l'a fait valoir Anthropic, elle « risque désormais de devoir payer des centaines de milliards de dollars de dommages-intérêts lors du procès qui se tiendra dans quatre mois », sur la base d'une certification de recours collectif précipitée à une « vitesse fulgurante » qui concerne « jusqu'à sept millions de plaignants potentiels, dont les œuvres couvrent un siècle d'histoire de l'édition », chacun pouvant déclencher une amende de 150 000 dollars.
Un pillage massif au cœur du dossier
L'action collective met en lumière le cœur du problème de l'IA générative : l'entraînement des modèles sur des masses de données non autorisées. Pour atteindre leur niveau de performance actuel, des modèles comme Claude d'Anthropic ou ChatGPT d'OpenAI ont ingéré d'énormes quantités de textes, d'images et de code, dont une grande partie est protégée par le droit d'auteur. Les plaignants dénoncent un pillage massif et systématique de la propriété intellectuelle, qui a permis à ces entreprises de construire des modèles d'une valeur inestimable sans aucune compensation pour les créateurs originaux.
Les documents judiciaires, rendus publics début août, décrivent un procédé d’une ampleur qui donne le vertige. Selon le juge, Anthropic aurait téléchargé 5 millions de livres via la bibliothèque pirate LibGen, et 2 millions supplémentaires via PiLiMi, pour nourrir ses modèles.
Dans le monde du machine learning, les données d’entraînement sont le carburant. Or, au lieu d’acheter du contenu sous licence ou de produire ses propres corpus, Anthropic aurait, selon les plaignants, choisi la voie la moins coûteuse : l’extraction illégale.
Le droit américain permet aux titulaires de droits d’auteur de réclamer jusqu’à 150 000 $ par œuvre contrefaite. Multipliez cela par des millions de livres et on atteint rapidement un montant théorique astronomique, potentiellement létal pour toute entreprise.
Des soutiens de poids
Dans un document déposé jeudi devant le tribunal, la Consumer Technology Association et la Computer and Communications Industry Association ont apporté leur soutien à Anthropic, avertissant la cour d'appel que « la certification erronée de la classe par le tribunal de district » menacerait de causer « un préjudice immense non seulement à une seule entreprise d'IA, mais à l'ensemble du secteur naissant de l'IA et à la compétitivité technologique mondiale des États-Unis ».
Selon ces groupes, autoriser les recours collectifs en matière de droit d'auteur dans les affaires liées à l'entraînement de l'IA conduirait à un avenir où les questions de droit d'auteur resteraient en suspens et où le risque que des plaignants « enhardis » imposent des règlements colossaux refroidirait les investissements dans l'IA.
« Une telle responsabilité potentielle dans cette affaire exerce une pression incroyablement coercitive sur Anthropic pour qu'elle accepte un règlement », ont fait valoir les groupes industriels, concluant que « alors que l'IA générative commence à façonner la trajectoire de l'économie mondiale, l'industrie technologique ne peut pas supporter un litige aussi dévastateur. Les États-Unis sont peut-être actuellement le leader mondial du développement de l'IA, mais cela pourrait changer si les litiges entravent les investissements en imposant des dommages-intérêts excessifs aux entreprises d'IA ».
Les défenseurs représentant les auteurs s'en mêlent et soutiennent... Anthropic
Des groupes industriels se sont joints à Anthropic pour faire valoir que, d'une manière générale, les poursuites en matière de droit d'auteur ne se prêtent pas aux recours collectifs, car chaque auteur doit prouver qu'il est bien le propriétaire de ses œuvres. Et ces groupes n'étaient pas les seuls.
Soutenant également l'appel d'Anthropic, les défenseurs représentant les auteurs, notamment Authors Alliance, Electronic Frontier Foundation, American Library Association, Association of Research Libraries et Public Knowledge, ont souligné que l'affaire Google Books avait montré que prouver la propriété était tout sauf simple.
Dans l'affaire Anthropic, les défenseurs des auteurs ont critiqué Alsup pour avoir essentiellement jugé les 7 millions de livres concernés par le procès sur leur couverture. Le juge n'aurait « pratiquement pas cherché à savoir qui étaient les membres réels », et n'aurait « pas analysé les types de livres inclus dans la catégorie, leurs auteurs, les types de licences susceptibles de s'appliquer à ces œuvres, les intérêts des titulaires de droits ou leur éventuel soutien aux positions des représentants de la catégorie ».
Ignorant « des décennies de recherche, de multiples projets de loi au Congrès et de nombreuses études du Bureau américain du droit d'auteur visant à relever les défis liés à la détermination des droits sur un grand nombre de livres », le tribunal de district semblait s'attendre à ce que les auteurs et les éditeurs puissent facilement « trouver le meilleur moyen d'obtenir réparation » pour les dommages subis.
Mais ce n'est jamais facile, ont déclaré les groupes. Prenons, par exemple, le cas des éditeurs aujourd'hui disparus qui pourraient compliquer les questions de propriété avec certains livres impliqués dans le litige. Ou encore, comment les titulaires de droits pourraient être affectés s'ils ne possèdent qu'une partie d'une œuvre, comme un chapitre ou des insertions dans des textes universitaires. Le tribunal de district n'a apparemment même pas pris en considération « ce qu'il adviendra des auteurs décédés dont les droits littéraires sont détenus par plusieurs parties ». Il existe également de nombreuses œuvres dites « orphelines », pour lesquelles « il sera impossible d'identifier les titulaires de droits afin de régler les questions de propriété ». Si le recours collectif aboutit, les groupes ont averti que le tribunal pourrait devoir examiner « des centaines de mini-procès pour régler ces questions ».
De plus, certains auteurs pourraient ne jamais savoir que le procès a lieu. Le système de notification proposé par le tribunal « obligerait les plaignants à informer eux-mêmes les autres ayants droit potentiels », ont déclaré les groupes, négligeant le fait qu'il a coûté 34,5 millions de dollars à Google « pour mettre en place un "registre des droits sur les livres" afin d'identifier les propriétaires pour les paiements dans le cadre du règlement proposé » dans l'une des plus grandes affaires impliquant des auteurs de livres avant l'avalanche de procès liés à l'IA.
De plus, le tribunal a suggéré qu'il était acceptable de certifier le recours collectif massif, car tout auteur qui ne souhaitait pas y participer pouvait se retirer. Cependant, certains groupes ont averti qu'une approche laxiste plaçait les auteurs qui n'auraient peut-être jamais entendu parler du procès — et qui auraient peut-être intenté leur action en justice différemment — dans une position difficile, constituant ainsi « une réponse inadéquate à un problème fondamental d'équité dans la formulation du recours collectif et aux préoccupations relatives au respect des procédures régulières des membres absents du recours collectif ».
Certains auteurs et éditeurs sont « déjà en désaccord sur l'IA », ce qui pourrait compliquer davantage ces affaires, si l'une des parties représentant les propriétaires légaux (généralement les éditeurs) souhaite se joindre au recours, mais que les propriétaires bénéficiaires (généralement les auteurs) s'y opposent.
Conclusion
Ce procès est une bombe à retardement pour l’industrie de l’IA. D’un côté, il rappelle une évidence : on ne peut pas se prétendre leader technologique en basant son développement sur du contenu volé. De l’autre, il pose la question de la viabilité même des modèles actuels, qui reposent sur une quantité phénoménale de données souvent impossibles à acquérir légalement à grande échelle.
Si le jugement final confirme la culpabilité d’Anthropic, l’industrie pourrait entrer dans une ère de purge, où seuls les acteurs capables d’investir massivement dans l’achat de données survivront. Dans ce scénario, l’IA perdrait peut-être en diversité et en innovation, mais gagnerait en légitimité et en respect du droit d’auteur.
Sources : décision de justice, Consumer Technology Association and the Computer et Communications Industry Association, Authors Alliance et Electronic Frontier Foundation
Et vous ?




Vous avez lu gratuitement 316 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.