
Contexte
En août 2024, les auteurs Andrea Bartz, Charles Graeber et Kirk Wallace Johnson ont intenté un recours collectif contre Anthropic dans le district nord de la Californie. L'action en justice accuse Anthropic, développeur de Claude AI, d'avoir entraîné son chatbot sur des copies pirates de livres protégés par le droit d'auteur, sans consentement ni compensation. Mais Anthropic soutient que l'entraînement de l'IA sur des œuvres protégées relève de l'usage loyal.
En avril 2025, Anthropic a déposé son opposition à la requête en certification de recours collectif, arguant qu'un recours collectif en matière de droit d'auteur portant sur des millions de livres n'était pas gérable et que les questions étaient trop distinctes pour être résolues dans le cadre d'un recours collectif.
Dans le cadre de cet argument, Anthropic a mis en garde contre « la perspective de dommages-intérêts légaux ruineux - 150 000 dollars multipliés par 5 millions de livres » : cela représenterait 750 milliards de dollars. Un mois plus tard, une audience a eu lieu concernant la requête d'Anthropic en vue d'obtenir un jugement sommaire sur l'usage loyal, qui a examiné dans quelle mesure l'utilisation des œuvres en question pouvait être qualifiée d'usage loyal.
Le juge William Alsup, de la cour fédérale du district nord de Californie, a rendu un jugement sommaire en faveur d'Anthropic, estimant que l'utilisation des livres protégés par le droit d'auteur à des fins de formation et le passage du format papier au format numérique constituent tous deux un « usage loyal ». Il s'agit d'une décision inédite en faveur de l'industrie de l'IA, mais elle est surtout limitée aux livres physiques qu'Anthropic a achetés et numérisés.
Malgré sa victoire, Anthropic doit toujours faire face à un procès pour piratage, pour lequel le juge William Alsup a estimé qu'il ne s'agissait pas d'une utilisation équitable. Anthropic est accusé d'avoir téléchargé jusqu'à sept millions de livres piratés afin de constituer une bibliothèque de recherche où les copies seraient conservées « à jamais », qu'elles aient été utilisées ou non dans le cadre de l'entraînement de ses grands modèles de langage.
Ayant apparemment compris que le piratage pouvait entraîner des poursuites judiciaires, Anthropic a ensuite tenté de remplacer les livres piratés par des copies achetées légalement. Toutefois, l’entreprise a également soutenu que même la copie initiale de ces livres piratés constituait une étape « intermédiaire » nécessaire pour permettre un usage transformateur dans l’entraînement de l’IA. Un argument largement controversé que le tribunal a rejeté.
Ce qui rend cette affaire explosive, c’est qu’Anthropic n’est probablement pas un cas isolé. Dans les cercles techniques, il est de notoriété publique que de nombreux modèles ont été formés sur des corpus partiellement ou totalement illégaux : bibliothèques pirates, dépôts GitHub sans licence, archives web contenant du contenu protégé…
Si la justice établit un précédent strict, toute l’industrie pourrait se retrouver dans la ligne de mire : OpenAI, Google DeepMind, Meta, Stability AI et bien d’autres. Le procès Anthropic pourrait alors devenir l’équivalent, pour l’IA, de l’affaire Napster dans l’industrie musicale — un moment de rupture imposant de nouvelles règles du jeu.
Anthropic est dans la tourmente
Les groupes industriels du secteur de l'IA exhortent une cour d'appel à bloquer ce qu'ils qualifient de plus grande action collective jamais certifiée en matière de droits d'auteur. Ils ont averti qu'un seul procès intenté par trois auteurs contre Anthropic pour sa formation en IA menace désormais de « ruiner financièrement » l'ensemble du secteur de l'IA si jusqu'à 7 millions de plaignants finissent par se joindre au litige et imposer un règlement.
Il y a quelques jours, Anthropic a déposé une requête en appel contre la certification du recours collectif, exhortant la cour à examiner des questions que le juge du tribunal de district, William Alsup, ne semble pas avoir prises en compte. Selon Anthropic, Alsup n'aurait pas procédé à une « analyse rigoureuse » du recours collectif potentiel et aurait plutôt fondé son jugement sur ses « 50 ans » d'expérience.
Si la cour d'appel rejette la requête, Anthropic estime que l'entreprise émergente pourrait être condamnée. Comme l'a fait valoir Anthropic, elle « risque désormais de devoir payer des centaines de milliards de dollars de dommages-intérêts lors du procès qui se tiendra dans quatre mois », sur la base d'une certification de recours collectif précipitée à une « vitesse fulgurante » qui concerne « jusqu'à sept millions de plaignants potentiels, dont les œuvres couvrent un siècle d'histoire de l'édition », chacun pouvant déclencher une amende de 150 000 dollars.
Un pillage massif au cœur du dossier
L'action collective met en lumière le cœur du problème de l'IA générative : l'entraînement des modèles sur des masses de données non autorisées. Pour atteindre leur niveau de performance actuel, des modèles comme Claude d'Anthropic ou ChatGPT d'OpenAI ont ingéré d'énormes quantités de textes, d'images et de code, dont une grande partie est protégée par le droit d'auteur. Les plaignants dénoncent un pillage massif et systématique de la propriété intellectuelle, qui a permis à ces entreprises de construire des modèles d'une valeur inestimable sans aucune compensation pour les créateurs originaux.
Les documents judiciaires, rendus publics début août, décrivent un procédé d’une ampleur qui donne le vertige. Selon le juge, Anthropic aurait téléchargé 5 millions de livres via la bibliothèque pirate LibGen, et 2 millions supplémentaires via PiLiMi, pour nourrir ses modèles.
Dans le monde du machine learning, les données d’entraînement sont le carburant. Or, au lieu d’acheter du contenu sous licence ou de produire ses propres corpus, Anthropic aurait, selon les plaignants, choisi la voie la moins coûteuse : l’extraction illégale.
Le droit américain permet aux titulaires de droits d’auteur de réclamer jusqu’à 150 000 $ par œuvre contrefaite. Multipliez cela par des millions de livres et on atteint rapidement un montant théorique astronomique, potentiellement létal pour toute entreprise.
Des soutiens de poids
Dans un document déposé jeudi devant le tribunal, la Consumer Technology Association et la Computer and Communications Industry Association ont apporté leur soutien à Anthropic, avertissant la cour d'appel que « la certification erronée de la classe par le tribunal de district » menacerait de causer « un préjudice immense non seulement à une seule entreprise d'IA, mais à l'ensemble du secteur naissant de l'IA et à la compétitivité technologique mondiale des États-Unis ».
Selon ces groupes, autoriser les recours collectifs en matière de droit d'auteur dans les affaires liées à l'entraînement de l'IA conduirait à un avenir où les questions de droit d'auteur resteraient en suspens et où le risque que des plaignants « enhardis » imposent des règlements colossaux refroidirait les investissements dans l'IA.
« Une telle responsabilité potentielle dans cette affaire exerce une pression incroyablement coercitive sur Anthropic pour qu'elle accepte un règlement », ont fait valoir les groupes industriels, concluant que « alors que l'IA générative commence à façonner la trajectoire de l'économie mondiale, l'industrie technologique ne peut pas supporter un litige aussi dévastateur. Les États-Unis sont peut-être actuellement le leader mondial du développement de l'IA, mais cela pourrait changer si les litiges entravent les investissements en imposant des dommages-intérêts excessifs aux entreprises d'IA ».
Les défenseurs représentant les auteurs s'en mêlent et soutiennent... Anthropic
Des groupes industriels se sont joints à Anthropic pour faire valoir que, d'une manière générale, les poursuites en matière de droit d'auteur ne se prêtent pas aux recours collectifs, car chaque auteur doit prouver qu'il est bien le propriétaire de ses œuvres. Et ces groupes n'étaient pas les seuls.
Soutenant également l'appel d'Anthropic, les défenseurs représentant les auteurs, notamment Authors Alliance, Electronic Frontier Foundation, American Library Association, Association of Research Libraries et Public Knowledge, ont souligné que l'affaire Google Books avait montré que prouver la propriété était tout sauf simple.
Dans l'affaire Anthropic, les défenseurs des auteurs ont critiqué Alsup pour avoir essentiellement jugé les 7 millions de livres concernés par le procès sur leur couverture. Le juge n'aurait « pratiquement pas cherché à savoir qui étaient les membres réels », et n'aurait « pas analysé les types de livres inclus dans la catégorie, leurs auteurs, les types de licences susceptibles de s'appliquer à ces œuvres, les intérêts des titulaires de droits ou leur éventuel soutien aux positions des représentants de la catégorie ».
Ignorant « des décennies de recherche, de multiples projets de loi au Congrès et de nombreuses études du Bureau américain du droit d'auteur visant à relever les défis liés à la détermination des droits sur un grand nombre de livres », le tribunal de district semblait s'attendre à ce que les auteurs et les éditeurs puissent facilement « trouver le meilleur moyen d'obtenir réparation » pour les dommages subis....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.